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FOREWORD 4 


现在 ,大 数据 ,社交 网 络 、 计 算 智能 、 深 度 学 习 等 词汇 都 已 经 成 为 人 们 日 常生 活 中 
经 常 看 到 的 热门 专业 名 词 。 如 果 我 们 考虑 这 些 领域 的 共性 ,那么 机 器 学 习 一 定 是 重 
要 的 交集 部 分 。 很 多 来 自 不 同 领域 .不 同 角色 的 学 生 、 工 作 人 员 都 在 加 入 学 习 机 器 学 
习 的 队伍 。 

本 书 的 编写 面向 正 走 在 或 即将 走向 学 习 机 器 学 习 路 上 的 广大 读者 。 我 们 在 日 党 
教学 和 培养 研究 生 过 程 中 发 现 ,很 多 学 生 一 方面 想 学 、 愿 意 学 机 器 学 习 , 另 一 方面 又 
遇 到 入 门 难 的 问题 ,希望 能 有 一 本 书 一 本 教材 讲 原理 ,给 数据 ,给 源码 ,给 实验 , 带 着 
入 门 。 鉴 此 我 们 编写 了 这 本 书 , 选 择 了 机 器 学 习 领 域 的 十 大 经 典 算法 ,把 我 们 平常 培 
养 刚 入 校 研 究 生 的 算法 材料 进行 整理 ,提供 给 广大 希望 学 习 的 读者 朋友 们 。 

本 书 在 整体 章节 的 安排 上 ,按照 监督 {KNN( 分 类 ),Bayes( 分 类 ),C4.5( 分 类 )， 
SVM( 分 类 ) ,AdaBoost( 分 类 ),CART( 回 归 )) 和 无 监督 {K-Means( 聚 类 ),Apriori( 关 
联 规则 ) ,PageRank( 排 序 ), EM (参数 估计 )} 的 顺序 组 织 。 在 每 一 章 的 讲解 中 ,从 讲 
故事 开始 讲解 算法 原理 ,接着 分 别 从 算法 实现 类 /方法 流程 图 .类 /方法 说 明 表 关键 
代码 讲解 算法 实现 ,然后 给 出 实验 数据 ,最 后 给 出 实验 结果 与 分 析 , 尽 量 做 到 简单 易 
懂 。 每 章 完整 的 源 代码 扫描 下 面 二 维 码 即 可 下 载 ,每 个 算法 对 应 一 个 Java 工程 , 实 
验 数据 都 在 每 个 工程 的 data 文件 夹 下 。 代 码 风 格 尽 量 保持 一 致 ,让 读者 更 容易 理解 。 

本 书 的 写作 工作 是 由 我 们 实验 室 两 位 老师 ( 肖 云 鹏 和 刘 宴 兵 教授 ) 以 及 复旦 大 
学 卢 星 宇 博士 ,清华 大 学 许 明博 士 .CMU 汪 浩 瀚 博士 和 北京 邮电 大 学 吴斌 教授 共同 
完成 , 几 位 作者 都 是 长 期 在 机 器 学 习 领 域 从 事 科学 研究 .工程 实践 项 目 合作 的 科研 
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扫 码 下 载 完整 代码 及 实验 数据 

人 员 和 高 校 工 作者 。 我 们 的 想法 是 通过 努力 ,以 开放 的 心态 ,帮助 更 多 的 希望 学 习 机 
器 学 习 的 读者 。 

即使 只 是 作为 一 本 人 门 级 的 学 习 读物 ,整个 书稿 前 前 后 后 也 修改 了 几 十 稿 。 同 
时 我 们 也 参考 学 习 了 很 多 机 器 学 习 方 面 的 书籍 和 网 络 资源 , 真 高 兴 当 下 国内 有 许多 
学 者 、 产 业界 人 员 和 互联 网 热心 人 提供 这 么 多 优秀 的 学 习 资 源 。 诚 然 ,即便 是 我 们 非 
常 努 力 地 完善 书稿 ,由 于 水 平 有 限 和 时 间 仓 促 , 书 中 可 能 还 会 有 这 样 或 那样 的 问题 ， 
请 读者 批评 指正 。 另 外 ,算法 自身 也 在 不 断 更 新 ,凡是 内 容 有 更 新 的 地 方 都 会 体现 在 
本 书 的 后 继 版 本 中 ,我 们 也 希望 本 书 的 第 二 版 ,第 三 版 等 不 仅 是 内 容 的 进一步 完善 ， 
还 会 加 入 更 多 有 趣 的 算法 ,从 传统 机 器 学 习 到 深度 学 习 、 增 强 学 习 。 其 实 , 机 器 学 习 
经 典 算法 又 何止 这 十 大 呢 ! 

最 后 ,感谢 我 的 家 人 对 我 工作 的 支持 ,感谢 实验 室 学 生 们 在 本 书 的 写作 过 程 中 帮 
着 收集 材料 , 提 意 见 ,讨论 书稿 ,所 有 的 过 程 都 是 美好 回忆 。 

本 书 的 完成 得 到 国家 973 重点 基础 研究 发 展 计划 (No. 2013CB329606)、 重 庆 市 
重点 研发 项 目 (No. cstc2017zdcy-zdyf0299, No. cstc2017zdcy-zdyf0436) .重庆 市 基础 
科学 与 前 沿 技术 研究 项 目 (No. cstc2017jcyjAX0099) 和 重庆 邮电 大 学 出 版 基金 资助 。 


肖 云 鹏 
2018 年 4 月 
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KNN 


人 1. KNN 算法 原理 


如 果 已 知 一 个 人 的 大 部 分 朋友 的 爱好 ,要 把 这 个 人 的 爱好 用 最 简单 的 分 类 问题 
做 预测 (分 类 ) ,办 法 就 是 通过 统计 他 最 亲密 (Nearest Neighbor, 某 种 距离 函数 方法 确 
定 中 的 最 近 ) 的 K 个 朋友 中 最 多 的 爱好 ,这 就 是 KNN 算法 。 在 这 个 算法 中 ,已 知 朋 
友 越 多 (训练 数据 完备 性 越 好 ) 、 朋 友 圈 子 分 离 越 大 (不 同 簇 的 距离 越 大 ), 算 法 越 好 。 
由 于 该 算法 原理 简单 .易于 理解 ,目前 应 用 领域 至 少 包 括 文本 处 理 、 模 式 识别 .计算 机 
视觉 .通信 工程 .生物 工程 ,甚至 NBA 等 体育 数据 分 析 。 


1.1.1 算法 引入 


假定 某 个 人 有 20 个 亲密 的 朋友 ,其 中 有 9 个 人 的 爱好 是 打 篮球 ,6 个 人 的 爱好 是 
打 乒 乓 球 ,5 个 人 的 爱好 是 打 排球 ,那么 就 可 以 猜测 这 个 人 更 可 能 喜欢 打 篮球 。 

这 个 过 程 就 是 利用 KNN 算法 思想 进行 分 类 的 过 程 ,其 标准 的 描述 如 下 : 假定 有 
三 类 体育 运动 分 别 是 篮球 、 乒 乓 球 和 排球 ,要 求 判断 这 个 用 户 喜爱 的 运动 。 根 据 上 述 
过 程 ,要 做 出 这 个 判断 ,首先 得 找 出 用 户 亲密 的 朋友 ,而 且 数 量 是 20 个 ,然后 根据 这 


让 2 
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20 个 亲密 的 朋友 的 爱好 做 出 判断 。 

由 此 类 推 到 KNN 算法 。K- 近 邻 算法 是 一 款 简单 实用 的 分 类 算法 ,通过 测量 不 
同样 本 之 间 的 距离 ,然后 根据 距离 最 近 的 天 个 邻居 来 进行 分 类 。 整 个 分 类 过 程 主要 
有 三 个 步骤 。 第 一 , 算 距 离 。 要 判断 哪些 是 用 户 亲 密 的 朋友 ,需要 一 个 邻近 度量 方 
法 。 第 二 , 求 近邻 。“20 个 ?就 是 用 户 近 邻 用 户 ,为 什么 是 20 个 ? 这 就 是 天 值 的 选择 
问题 。 第 三 ,做 决策 。 用 户 的 爱好 最 终 是 与 近邻 用 户 人 数 最 多 的 一 个 类 别 , 这 里 采用 
了 多 数 表决 的 方法 进行 分 类 决策 ,可 以 概括 为 “ 随 大 流 ” 的 思想 。 


1.1.2 科学 问题 


问题 输入 : 训练 数据 集 
Z=({((zyy), (zyy)，…(zoyyn)} (1-1) 


其 中 ,zx;EXCR" 为 实例 样本 的 特征 向 量 ,y;€ {a ,ce ,cv } 为 实例 的 类 别 ; 实例 特 
征 向 量 z; 近邻 用 户 个 数 天 。 
问题 输出 : 实例 z 的 类 别 y。 


1.1.3 算法 流程 


构建 K- 近 邻 算法 主要 分 为 三 个 步骤 : 算 距离 , 取 近 邻 , 做 决策 。 下 面 详细 解释 这 
三 个 步骤 。 

(1) 算 距 离 : 计算 测量 值 与 样本 集中 每 个 数据 的 距离 。 常 见 距离 的 度量 方法 包括 欧 
几 里 得 距离 和 夹 角 余弦 等 。 一 般 来 说 ,文本 分 类 使 用 夹 角 余 弦 比 欧 几 里 得 距离 更 加 合适 。 

(2) 取 近 邻 : 将 计算 好 的 距离 排序 ,选择 玉 个 距离 最 近 的 样本 点 。 选 择 合适 的 
KK 值 ,对 算法 分 类 的 效果 尤为 重要 。 如 果 K 值 太 小 , 则 分 离 器 容易 受到 训练 数据 中 
的 噪声 影响 ; 如 果 K 值 太 大 ,分 类 器 可 能 会 误 分 类 测试 样本 。 可 利用 交叉 验证 的 方 
案 来 选择 天 值 。 

(3) 做 决策 : 得 到 近邻 列表 后 ,采用 多 数 表决 的 方法 对 测试 样本 进行 分 类 。 在 多 
数 表决 中 ,每 个 近邻 对 分 类 的 影响 都 一 样 ,这 使 得 算法 对 K 的 选择 很 敏感 。 降 低 天 
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的 影响 的 一 种 途径 是 根据 每 个 近邻 距离 的 不 同 对 其 作用 加 权 。 


1.1.4 算法 描述 


算法 1-1 是 对 KK- 近邻 算 法 的 描述 。 算 法 首先 对 每 个 测试 样本 实例 zsEX 计算 
与 所 有 训练 集 (zi'yDEZ 之 间 的 距离 ,得 到 近邻 列表 D., 然 后 根据 近邻 列表 的 分 类 
情况 以 多 数 判决 的 规则 决定 测试 样本 的 分 类 。 算 法 的 伪 代 码 如 下 。 


算法 1-1 K- 近 邻 分 类 算法 。 
输入 : 训练 数据 集 Z; 
可 调 参 数 下; 测试 样 例 集 的 特征 向 量 X; 
1: forall xz,,EXdo 
2 计算 测试 样本 xz, 到 每 个 训练 集 (zx ,ys)EZ 之 间 的 距离 d 
3: 以 距离 为 特征 对 训练 集 排序 ,得 到 距离 最 近 的 KK 个 近邻 集合 DD. 
4 多 数 表决 y 一 argmax 3) I(e= »,) 


(9) ED, 





5: end for 


输出 : 实例 zs 的 类 别 y， 


其 中 ,c 是 类 别 标号 ,ICc= ww ) 为 指示 函数 ,如 果 参 数 为 真 , 则 值 为 1, 如果 参 数 为 
假 , 则 值 为 0。 

KNN 的 优点 在 易于 理解 ,模型 使 用 高 效 (不 代表 存储 量 低 , 但 是 遍历 计算 复杂 问 
题 有 很 多 工程 方法 解决 ) ,有 一 定 鲁 棒 性 (K 值 较 大 时 明显 抗 噪 能 力 强 ); 算法 的 不 足 
在 于 大 多 数 情况 下 并 没有 那么 好 的 训练 集 ( 例 如 小 答对 大 簇 存在 分 类 劣势 ) 。 


1.1.5 补充 说 明 


1. 欧 几 里 得 距离 与 余弦 距离 


设 特 征 空间 X 是 维 实数 向 量 空间 R" ,zi 厂 EX 大 一 (TD Ta ) ,ZT 二 
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(zz ,7 ,… 77?), 则 特征 向 量 之 间 的 欧 几 里 得 距离 为 


dasa) = | ta a (1-2) 


余弦 距离 为 


Kio XK; a 
COs(xin Xj) Tal -lar | (1=3) 


其 中 , 欧 几 里 得 距离 表达 的 是 两 向 量 的 绝对 距离 ,计算 的 是 两 向 量 中 各 维度 的 绝对 差 
值 。 因 此 ,计算 欧 几 里 得 距离 的 时 候 要 求 各 维度 指标 有 相同 的 刻度 级 别 ,在 使 用 之 前 
需要 对 底层 数据 进行 标准 化 处 理 。 而 余弦 距离 注重 两 向 量 方向 上 的 差异 ,而 非 位 置 。 

邻近 度 度量 公式 有 许多 ,如 皮尔 逊 相关 系数 ,Jaccard 相关 系数 等 ,距离 度量 的 类 
型 的 选取 需要 与 数据 类 型 相 适应 。 各 种 类 型 的 邻近 度 度量 公式 的 区 别 及 适用 条 件 可 
见 参考 文献 。 


2. 距离 加 权 表决 


在 多 数 表决 中 ,K 个 近邻 用 户 对 最 终 决策 的 贡献 是 一 样 的 ,这 使 得 天 值 对 决策 
结果 很 敏感 ,降低 这 种 敏感 的 有 效 手段 之 一 是 使 用 距离 加 权 表决 。 其 形式 化 如 下 : 
了 = argmax > wi XI(c= y) (1-4) 


GED, 


人 @O 1.2 kNN 算 法 实现 


本 节 讲 述 如 何 使 用 Java 实现 K- 近 邻 算法 ,并 开发 KNN 算法 的 简单 应 用 ,以 加 
深 读者 对 构建 KNN 算法 的 三 个 主要 步骤 的 理解 。 


1.2.1 简介 


本 算法 的 Java 实现 主要 包括 数据 处 理 和 算法 模块 。 数 据 处 理 模 块 的 主要 内 容 
有 数据 的 加 载 及 预 处 理 .训练 集 和 测试 集 的 划分 ; 算法 模块 的 主要 内 容 有 计算 欧 几 
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里 得 距离 .选取 近邻 数据 及 决策 。 下 面 将 详细 介绍 Java 类 的 设计 情况 。 


算法 设计 流程 图 如 图 1-1 所 示 。 
Node 


main | | loadData 2 Node 
和信 口 函 数 读 取 数据 数据 封装 











3 normData 
数据 集 归 一 化 初始 化 
4 dataProcessing 
画 数 划分 训练 集 和 
测试 集 





























核心 
disBetweenNode |7 knn 一 辅助 操作 其 
计算 样本 点 之 了 “分 类 过 程 --- 核 心算 法 
间 的 距离 
图 1-1 算法 设计 流程 图 
类 名 称 及 其 描述 如 表 1-1 所 示 。 
表 1-1 类 名 称 及 其 描述 
类 名 称 类 描述 
(所 有 未 一 个 数据 点 ) 
成 员 变量 : 
Node private ArrayList <Double> property; “ // 数 据点 的 属性 向 量 
private String label; // 数 据点 的 标签 
(集成 算法 所 需要 的 工具 类 ) 
函数 : 
/xx 归 一 化 数值 */ 


Public static double normNum( double oldValue, double max, double K){…} 
/xx 计算 两 个 样本 之 间 的 邻近 度 ( 欧 氏 距离 ) * / 

AlgorithmUtil | public static double disBetweenPoint(Node ol, Node 02){ …} 

/xx 将 数据 集 归 一 化 处 理 * / 

Public static void normData(RrrayList<Node> dataList){…} 

/ xx 划分 训练 集 * / 

Public static Array < ArrayList < Node >> dataProcessing( ArrayList < Node > 
dataSetList, double trainRate){ …} 
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(描述 文件 的 读 写 ) 
函数 : 


/xx 读 取 txt 文 件 */ 
public static ArrayList < Node > loadData(String data path){…} 


FileOperate 





(描述 算法 的 可 变 变 量 ) 

成 员 变 量 : 

Configuration | Public static final String DATA_PATH=""; 
Public static final int K=""; 

Public static final double TRAINRATIO=""; 





(描述 K- 近 邻 算法 ) 

函数 : 

/xx KNN 算 法 过 程 */ 

KNN public String knn(Node node, ArrayList <Node> trainSet){…} 

/x* 测试 分 类 器 */ 

public void test(ArrayList <Node> testSet, ArrayList <Node> trainSet) 
记 巩 





Node 类 主要 描述 一 个 数据 点 ,存储 了 数据 点 的 特征 属性 和 标签 ; AlgorithmUtil 
为 算法 集成 工具 类 ,主要 功能 包括 随机 数 的 生成 . 归 一 化 数值 ,邻近 度 度量 、 特 征 最 大 
最 小 值 选择 ; FileOperate 类 主要 的 功能 是 读 写 文件 ; Configuration 类 集成 了 可 变 变 
量 ,主要 包括 数据 的 存储 路 径 、. 近 邻 个 数 .训练 集 比 例 ; KNN 类 描述 了 KNN 算法 的 
主要 流程 。 





1.2.2 核心 代码 


实现 KNN 算法 的 核心 代码 主要 有 三 个 部 分 : 第 一 ,随机 选取 训练 集 ; 第 二 , 样 
本 点 之 间 的 距离 计算 ; 第 三 ,KNN 算法 过 程 。 下 面 详细 介绍 这 三 部 分 核心 代码 。 
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1. 随机 生成 训练 集 和 测试 集 


1 /x 

本 * 划分 训练 集 和 测试 集 

或 共 

4 * @paranm dataSetList 数据 集 

5 * @param trainRate 训练 集 比 例 

6 * @return 训练 集 和 测试 集 

可 */ 

8 public static ArrayList <ArrayList <Node >> dataProcessing(ArrayList <Node> 
dataSetList, double trainRate) { 

9 ArrayList <ArrayList < Node >> trainTestSet = new ArrayList <ArrayList 

<Node >(); 

10 ArrayList <Node> trainSet = new ArrayList <Node >(); 

得 ArrayList <Node> testSet = new ArrayList < Node >(); 

12 int dataSize = dataSetList. size( ); 

13 int trainLength= (int) (dataSize * trainRate); 

14 int[ ] sum = new int[dataSize]; 

15 for (int i=0; i<dataSize; i++) { 

16 sum[i] =i; 

17 } 

18 int num = dataSize; 

19 for (int i=0; i<trainLength; i++) { 

20 int temp = ( int) (Math. randon() * (nunm—— )); 

21 trainSet. add(dataSetList.get(sum[ temp])) 

22 sun[ temp] = Sum[ num] ; 

23 } 

24 trainTestSet. add(trainSet); 

25 for (int i=0; i<dataSize - trainLength; i++) { 

26 testSet. add( dataSetList. get( sum[i])); 

27 } 

28 trainTestSet. add(testSet); 

29 return trainTestSet; 





3 机 器 学 习 经 典 算法 实 中 


随机 生成 训练 集 的 Java 实现 过 程 如 下 : 首先 随机 生成 训练 集 的 编号 ,因为 训练 
集 的 编号 是 在 一 定 范围 内 的 ,因此 随机 数 的 生成 需要 在 一 定 范围 内 ,并 且 数量 是 确定 
的 。 这 里 的 代码 主要 是 生成 一 定数 量 在 某 段 范围 内 的 随机 数 。 


2. 邻近 度 度 量 


考虑 到 数据 集 的 特点 ,我们 使 用 欧 几 里 得 距离 来 度量 两 个 实例 样本 之 间 的 距离 。 
需要 注意 的 是 ,做 邻近 度 度量 时 是 归 一 化 后 的 特征 数据 。 其 Java 实现 如 下 。 


/x 
* 计算 两 个 样本 之 间 的 距离 
# @param ol: 样本 1 
* @param o2: 样本 2 
x @return 样本 1 与 样本 2 的 距离 
*/ 
public double disBetweenNode( Node o01, Node o2) { 
double distance; 
double sum= 0; 
for (int i=0; i<ol1.getProperty(). size(); i++) { 
Sum += Math. pow( (01. getProperty().get(i) — o2.getProperty() 
.get(i)), 2); 


omaummwmnbP 


天 
-oo 


局 


1 
distance = Math. pow( sum, 0.5); 
return distance; 


pi 
(EE 


3. KNN 算法 过 程 


/ xx 
x KNN 分 类 过 程 
* @Pparam node 要 分 类 的 实例 
x @param trainSet 训练 集 
* @return 分 类 标签 


CE 


第 | 章 KNN ; 9 





*/ 
public String knn( Node node, ArrayList <Node> trainSet) { 

9 String label = nul1l; 

10 for (int i=0; i< trainSet. size(); i++) { 

11 double dis = AlgorithmUtil. disBetweenNode( node, trainSet 

“get(i)); // 计 算 欧 几 里 得 距离 

12 trainSet. get(i). setDisFromNode(dis) ; 

13 } 

14 // 对 距离 从 小 到 大 排序 

15 Collections. sort(trainSet, new Comparator < Node >() { 

16 public int compare(Node ol1l, Node o2) { 

17 if (ol.getDisFronNode( ) > 02.getDisFromNode()) { 

18 return 1; 

19 } else if (ol.getDisFromNode() == o2.getDisFromNode()) { 

20 return 0; 

21 } else{ 

22 return —1; 

23 } 

24 ph 

25 Dy 

26 HashMap < String，Integer > countMap = new HashMap <String, Integer >(); 

27 for (int i=0; i< Configuration.K; i++) {// 对 K 个 近邻 用 户 统计 他 们 的 
// 分 类 信息 

28 String neigborLabel = trainSet. get(i). getLabel(); 

29 if (countMap. containsKey(neigborLabel)) { 

30 int count = countMap. get(neigborLabel) + 1; 

31 countMap. put (neigborLabel, count); 

32 } else { 

33 countMap. put (neigborLabel, 1); 

34 } 

5 } 

36 // 判 别 方式 , 多数 服 从 少数 

37 jint max= 0; 

38 Iterator < String> 让 = countMap. KeySet( ). iterator(); 


39 while (it.hasNext()){ 
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40 String countKey= it. next(); 

41 if (countMap. get(countKey) > max) { 
42 max = countMap. get (countKey) ; 
43 label = countKey; 

46 } 

47 } 

48 return label; 

49 | 


Java 实现 的 KNN 算法 首先 计算 测试 用 例 与 训练 集 的 距离 ,然后 根据 距离 对 训 
练 集 进行 由 小 到 大 排序 ,然后 取 前 天 个 作为 测试 用 例 的 近邻 ,最 后 以 多 数 判 决 的 方 
式 决定 测试 用 例 的 类 别 。 


人 @ 1.3 实验 数据 


本 实验 使 用 UCI 的 公开 数据 集 药 尾 花 数据 集 , 下载 网 址 为 http://archive. ics. 
uci. edu/ml/datasets/Iris, 样 本 主要 包含 4 种 特征 : 莹 片 长 , 亚 片 宽 、 花 瓣 长 ,花瓣 
宽 。 其 类 标签 主要 有 三 个 : Iris-virginica Iris-versicolor 和 Iris-setosa。 每 类 样本 的 数 
量 是 50 个 。 使 用 KNN 算法 将 测试 样本 根据 样本 特征 归 类 。 表 1-2 是 部 分 样本 
数据 。 


表 1-2 部 分 样本 数据 
序号 | 苯 片 长 /em 坦 片 宽 /cm 花 辩 长 /cm 花 辩 宽 /cm 类 标签 











1 5.1 3.5 1.4 0.2 Iris-setosa 
2 4.9 3.0 1.4 0.2 Iris-setosa 
3 了 从 3.2 4.7 1.4 Jris-versicolor 





4 6.3 3.3 6.0 2.5 Iris-virginica 
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人 @ 1.4 实验 结果 


1.4.1 结果 展示 


本 实验 按 常规 随机 将 80% 的 数据 作为 训练 集 ,剩余 20% 的 数据 作为 测试 集 。 近 
邻 个 数 是 3。 其 部 分 结果 展示 如 表 1-3 所 示 。 


表 1-3 部 分 结果 展示 





样本 归 一 化 后 的 特征 测试 样本 实际 的 分 类 分 类 器 的 分 类 结果 
(0.16,0.45,0.08,0.0) Iris-setosa Iris-setosa 





(0.33,0. 12,0. 50,0.49) 


Iris-versicolor 


Iris-versicolor 





(0.38,0.33,0.52,0.49) 


Iris-versicolor 


Iris-versicolor 





(0.47,0.37,0. 59,0. 58) 


Iris-versicolor 


Iris-versicolor 





(1.0,0.74,0. 91,0.79) 


Jris-virginica 





(0.66,0.45,0.77,0.95) 





Jris-virginica 








(0.42,0.29,0.70,0.74) 


此 次 实验 的 错误 率 为 3.3%。 


1.4.2 结果 分 析 


Jris-virginica 





Jris-virginica 


分 类 器 的 错误 率 为 3.3% ,说 明 分 类 效果 还 不 错 。 我 们 可 以 调节 训练 集 和 测试 集 
比例 以 及 调节 天 值 ,观测 错误 率 是 否 发 生变 化 。 数 据 集 ` 分 类 算法 等 都 能 影响 分 类 


器 的 性 能 。 


KNN 算法 适合 多 分 类 问题 ,算法 的 优点 是 简单 ,易于 理解 。 其 不 足 之 处 有 两 点 。 
第 一 , 当 样 本 极度 不 平衡 时 ,如 某 个 类 别 的 样本 数量 过 大 导致 分 类 时 大 数量 的 样本 占 
多 数 , 将 影响 分 类 精度 。 第 二 ,KNN 算法 在 分 类 时 需要 计算 测试 样本 到 每 个 训练 样 
本 的 距离 才能 找到 天 个 近邻 ,导致 计算 量 大 。 





朴素 贝 叶 斯 


人 @ 2.1 朴素 贝 叶 斯 算法 原理 


如 果 一 堆 感 情 骗 子 的 普遍 特点 是 “长 得 帅 、. 爱 说 谎 、 不 接 电话 ,有 钱 、……”, 经 济 
适用 男 的 特点 是 “不 说 谎 、 爱 父母 有 车 有 房 ………”"( 先 验 )。 那 么 把 问题 反 过 来 , 当 遇 
到 一 个 “长 得 帅 \ 不 说 谎 、 没 钱 " 的 人 的 时 候 ( 后 验 ) ,怎么 确定 他 是 不 是 好 人 ? 对 此 ,从 
先 验 概率 和 后 验 概率 说 起 ,这 就 是 朴素 贝 叶 斯 算法 。 另 外 ,笔者 有 个 体会 ,对 现代 发 
展 越 来 越 不 朴素 的 朴素 贝 叶 斯 算法 ,到 底 得 失 如 何 , 在 实践 使 用 中 ,还 是 需要 三 思 的 。 


2.1.1 朴素 贝 叶 斯 算法 引 和 人 


大 家 在 决定 去 看 电影 之 前 ,通常 会 先 去 豆 关上 看 看 对 该 影片 的 评分 或 者 评论 。 
在 面 对 数 量 众多 的 评论 时 ,一 个 很 关键 的 问题 就 是 如 何 对 这 些 影评 进行 分 类 ? 如 果 
逐条 评论 阅读 ,当然 可 以 很 容易 地 评判 出 是 好 评 还 是 差 评 。 可 是 ,人 工 阅读 的 速度 毕 
竟 是 很 慢 的 ,那么 我 们 会 思考 一 个 问题 ,可 否 找到 一 个 方式 ,让 计算 机 替 我 们 解决 这 
个 影评 分 类 问题 。 这 样 , 我 们 只 需 将 这 些 影评 输入 计算 机 中 ,然后 经 过 某 种 过 程 ,最 
终 输出 结果 就 是 分 类 之 后 的 影评 ,如 图 2-1 所 示 。 
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图 2-1 影评 分 类 示意 图 
既然 这 是 一 个 分 类 问题 ,那么 我 们 就 先 去 机 器 学 习 的 分 类 算法 里 找 一 找 ,看 看 是 
否 有 合适 的 算法 可 以 解决 这 个 算法 。 首 先 思考 在 机 器 学 习 算法 中 常见 的 分 类 算法 有 
哪些 ? 很 容易 想到 的 就 是 决策 树 ,朴素 贝 叶 斯 支持 向 量 机 (SVM) 等 经 典 分 类 算法 。 
其 次 ,结合 需要 解决 的 问题 ,进一步 选择 分 类 算法 。 这 些 影评 都 是 文本 数据 ,而 朴素 
贝 叶 斯 是 可 以 直接 用 于 文本 分 类 的 算法 之 一 , 且 在 实际 应 用 中 取得 了 较 好 的 效果 。 
下 面 就 来 深入 了 解 朴 素 贝 叶 斯 算法 的 细节 。 


2.1.2 科学 问题 


1. 相关 理论 


当 给 定 一 条 影评 后 我 们 需要 判断 出 是 好 评 还 是 差 评 ,用 P(Y) 表 示 影 评 为 好 评 或 
差 评 的 概率 ,每 一 条 影评 中 ,每 个 单词 出 现 的 概率 用 P(X) 表 示 , 在 相应 类 别 评论 中 单 
词义 出 现 的 概率 为 P(XIY), 最 终结 果 即 为 求 已 知 某 条 评论 中 所 有 单词 出 现 的 概率 ， 
求 该 评论 对 应 的 类 别 , 即 求 P(Y|X)。 


2. 问题 定义 


朴素 贝 叶 斯 算法 来 源 于 如 下 的 朴素 贝 叶 斯 公式 : 





P(X TIPO) 
P(X) 


其 中 ,P(Y) 称 为 先 验 概率 ,PCX|Y) 为 条 件 概率 ,PCY|X) 则 叫 作 后 验 概率 。 朴 素 贝 叶 
斯 公式 的 推导 依据 则 是 概率 理论 中 的 联合 概率 公式 : 
P(Y,X) = P(Y | X)P(X) = P(X | YP(Y) (2-2) 

如 果 把 贝 叶 斯 公式 引入 机 器 学 习 , 那 么 就 可 以 把 X 作为 样本 的 特征 ,Y 理解 为 样 
本 的 类 别 集 。 这 样 先 验 概率 P(Y) 就 可 表示 为 : 某 个 样本 属于 某 个 类 别 的 概率 。 条 
件 概率 P(XIY) 表 示 为 : 属于 某 个 类 别 的 样本 具有 某 些 特征 的 概率 。 而 后 验 概率 
P(Y|X) 可 表示 为 : 具有 某 些 特征 的 样本 属于 某 个 类 别 的 概率 ,这 也 是 我 们 需要 解决 
的 问题 。 

通常 情况 下 ,直接 计算 P(Y|X) 会 很 困难 甚至 不 可 行 ,通过 联合 概率 公式 转换 得 
到 的 朴素 贝 叶 斯 公式 ,使 得 我 们 可 以 在 已 知 P(Y), P(XIY) 的 情况 下 求 得 P(Y|X)。 
这 样 在 实际 分 类 过 程 中 ,我 们 需要 做 的 是 根据 输入 样本 的 特征 逐一 计算 其 属于 可 能 
类 别 的 概率 ,然后 选取 概率 最 大 的 类 别 作为 该 样本 的 类 别 。 贝 叶 斯 方法 正 是 通过 数 
学 方式 把 计算 后 验 概 率 的 任务 转换 为 了 计算 条 件 概率 。 这 样 , 我 们 只 需要 找到 包含 
已 知 标签 的 样本 , 即 可 进行 训练 任务 。 


P(Y | X)= (2-1) 


2.1.3 算法 流程 


假设 X 是 定义 在 输入 空间 上 的 随机 变量 表示 为 X={z ,zo，… ,zx1},Y 则 是 定义 
在 输出 空间 上 的 随机 变量 Y 三 {a ,cs，,… ,cr)。 朴 素 贝 叶 斯 分 类 时 ,对 给 定 输入 样本 
Zi(i 王 1,2,…,/) ,通过 学 习 到 的 模型 计算 后 验 概率 P(Y=c;/X=zx;)(j 二 1,2,*…,k)， 
取 后 验 概率 最 大 时 相应 的 类 别 c; 作为 样本 xz; 的 输出 。 根 据 公式 (2-1) 可 知 后 验 概率 
计算 方式 如 下 : 


p=/X= 1) -PEA/Y = PY = 0) 


P(X 一 Ti) 
在 具体 计算 条 件 概率 P(X= zi/Y=c) 时 ,假设 条 件 概率 具有 条 件 独立 性 ,朴素 
贝 叶 斯 的 朴素 性 就 表现 于 此 。 计 算 方式 如 下 : 
P(X= zx/Y= 606)= P(X® = zx, X™® = 7 /Y= 606) 





(2-3) 
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= TP =/ =0) (2-4) 


其 中 ,zx? 表示 输入 样本 zx; 的 第 * 个 特征 的 取 值 。 
将 式 (2-4) 代 入 式 (2-3) 中 有 


I[PC(X® = 4/Y = 06)P(Y = 60) 
P(X = zx;) 





P(Y = c/X = zx;) 








取 概率 最 大 的 类 别 c; 为 样本 xz; 的 输出 , 则 分 类 器 可 表示 为 : 


JTpexe = xzP/Y = 0)P(Y = 0) 
a py P 
y= f(z ma P(X = (2-6) 


对 所 有 类 别 cj, 式 (2-6) 中 分 母 都 是 相同 的 ,所 以 可 简化 为 : 





y= f(x) = arg max [[ P(X® = XM/Y = 0)P(Y = 0) (2-7) 
由 此 可 知 ,朴素 贝 叶 斯 算法 最 终 需 要 通过 训练 集 获取 参数 P(X "一 zz 一 ci) 
和 P(Y=cj) ,这 里 使 用 极 大 似 然 估计 法 来 估计 参数 的 概率 。 
令 D; 表示 训练 集中 cj 类 样本 的 集合 , 则 条 件 概率 如 下 计算 : 


No 
P(X® = x?/Y=60)= j 万 (2-8) 


这 里 Nj.w* 表 示 D; 中 第 ;个 特征 取 值 为 z;” 的 样本 的 数量 ,这 里 称 作 特 征 变量 ,NN; 表 
示 DD; 中 元 素 的 个 数 , 这 里 称 作 样 本 变量 。 
先 验 概率 计算 方法 如 下 : 





(2-9) 


表示 训练 集中 样本 类 别 个 数 。 


2.1.4 算法 描述 


朴素 贝 叶 斯 算法 分 为 训练 和 测试 两 部 分 ,训练 包括 计算 训练 集中 每 个 属性 值 的 
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条 件 概率 和 类 别 的 先 验 概率 ,测试 部 分 则 是 用 训练 好 的 参数 对 预测 样本 进行 分 类 预 
测 。 这 里 定义 集合 Di 中 元 素 的 数量 变量 为 Ni。 





算法 2-1 模型 训练 。 
输入 : 训练 集 D={(zm sy) (Toy sn,(T1 yD)); 
特征 变量 Nj ; 
样本 变量 N;. 
过 程 : 
1: 初始 化 特征 变量 Ni ,样本 变量 N; 
2: for ;一 1,2,…'/ do 
3: 判断 样本 xz; 的 类 别 ， 
相应 类 别 的 样本 变量 Ni 加 1; 
4: for s=1,.2,",m do 
5: 相应 类 别 的 特征 变量 Nj,* 加 1; 
6: end for 
学 





: end for 


输出 : 条 件 概率 P(X 二 zx? /Y=6)=Njso/N; 


先 验 概率 ; P(Y = c) = N;/ DN; 


算法 2-2 模型 预测 。 

输入 : 待 预测 样本 X 一 {zi yz ，…zn}; 

过 程 : 

1:，for ;一 1.2.…,mz do 

2: ”获取 条 件 概 率 P(X 二 zx/Y=c)(j 二 1,2,…,k); 
3: ”获取 先 验 概率 P(Y=c)(j==1,2,…,k); 

4: 公式 (7) 计 算 y= 了 (zi); 





第 2 章 朴素 由 叶 斯 ;17 3 





5: end for 
输出 : 样本 类 别 y= 了 (zx;) 


2.1.5 算法 补充 


在 使 用 朴素 贝 叶 斯 算法 进行 实际 分 类 过 程 中 ,样本 可 能 会 遇 到 某 个 属性 值 的 条 
件 概率 为 0, 从 而 导致 分 类 产生 偏差 。 对 于 此 问题 ,一 般 采 用 平滑 技术 , 则 条 件 概率 和 
先 验 概率 计算 方式 如 下 : 








Nj 十 1 
ED = A EE J . 
P(X®? = ri?/Y= 6)= NN (2-10) 
其 中 ,s; 表示 训练 集中 样本 第 j 个 属性 可 能 取 值 的 个 数 。 
Pl(Y= cj) 一 Js (2-11) 
DN,+k 


& 表示 训练 集中 样本 类 别 个 数 。 


人 @ 2.2 朴素 贝 叶 斯 算法 实现 


2.2.1 简介 


本 算法 的 Java 实现 主要 包括 数据 处 理 和 算法 模块 。 数 据 处 理 模块 的 主要 内 容 
有 数据 的 加 载 及 预 处 理 ,训练 集 和 测试 集 的 划分 ; 算法 模块 的 主要 内 容 有 计算 先 验 
概率 和 条 件 概率 以 及 分 类 决策 。 下 面 详细 介绍 Java 类 设计 情况 。 

算法 设计 流程 图 如 图 2-1 所 示 。 

类 名 称 及 其 描述 如 表 2-1 所 示 。 


机 器 学 习 经 典 算法 实 中 


AlgorithmUtiN|/ NaiveBayes 
算法 工具 类 算法 类 


main _1| loadData_2| 。cleanData 3 | Point 
人口 函数 读 取 数 据 清洗 数据 数据 封装 








lass 





闫 | A 





















dataProcessing 初始 化 
E 划分 训练 集 
和 测试 集 


training 6| Classification 
训练 分 类 器 |” 分 类 器 


constructWordset| 7 |! 

建立 单词 集合 | 一 ~ i 
8 心 

oandwoavl 算法 

建立 单间 映射 表 
9 





函数 


constructClassifi 
-cation 
构造 分 类 器 
test 一 一 辅助 操作 》 神 斌 
测试 结果 -~ 一 核 心算 法 
J 























图 2-2 算法 设计 流程 图 
表 2-1 类 名 称 及 其 描述 
类 名 称 类 描 述 
(定义 输入 的 每 一 条 短信 ) 
成 员 变量 ， 


private String type; // 短 信 类 别 
Private String message; // 短 信和 内 容 


(训练 朴素 贝 叶 斯 算法 ) 

函数 : 

/ xx 训练 朴素 贝 叶 斯 分 类 器 x / 

NaiveBayes public Classification training(ArrayList <Node > trainingList){…} 
/x** 测试 朴素 贝 叶 斯 分 类 器 * / 

public void test (ArrayList < Node > testList, Classification 
classification){…} 





Example 
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(工具 类 各 种 需要 的 辅助 函数 ) 

函数 : 

/x** 清理 数据 * / 

Mlaiidl public String cleanData( String info) {…} 


/ ** 获取 训练 集 和 测试 集 * / 
public static ArrayList < ArrayList < Example > > dataProcessing 
(ArrayList < Example > dataSetList, double trainRate) {…} 





2.2.2 核心 代码 


通过 训练 数据 集训 练 出 朴素 贝 叶 斯 分 类 器 ,其 具体 过 程 如 下 。 


1 /xx 
2 * 训练 朴素 贝 叶 斯 分 类 器 
3 * @paran trainingList 训练 集 
4 # @return classification 训练 完毕 的 分 类 器 
5 */ 
6 public Classification training( ArrayList <Example> trainingList) { 
HashMap < String, Double> hamMap = new HashMap < String, Double>(); 
// 非 垃圾 短信 单词 表 
8 HashMap <String, Double> spamMap = new HashMap < String, Double >(); 
// 垃 圾 短信 单词 表 
9 HashSet <String> trainingSet = new HashSet <String >(); 
// 此 长 度 为 训练 集 不 重复 单词 数 
10 ArrayList <String> hamWords = new ArrayList <String>(); 
// 非 垃圾 短信 所 有 词 
jy RrrayList< String> spamWords = new ArrayList <String >(); 
// 垃 圾 短信 所 有 词 
12 


13 //1、 建 立 单词 集合 


14 


1 


w 


和 


* 


#* 


x* 


HashMap < String, Double> parameterList = constructWordSet 
(trainingList, hamWords, spamWords, trainingSet);// 用 MAP 


//2、 建 立 单词 映射 表 
constructWordMap(hamWords，spamWords，hanMap，spamMap) ; 


//3、 构 建 分 类 器 
Classification classification = constructClassification 
(parameterList, trainingSet, hanMap, spamMap); 


return classification; 


建立 单词 集合 

@paranm trainingList 训练 集 

@param hamWords 非 垃圾 短信 所 有 词 

@param spanWords 垃圾 短信 所 有 词 

@param trainingSet 训练 集中 不 重复 单词 集合 
@return parameterList 训练 过 程 中 的 参数 

/ 


public HashMap < String, Double > constructWordSet ( ArrayList < Example > 
trainingList, ArrayList <String> hamWords, 


ArrayList < String > spamWords, HashSet <String> trainingSet) { 


double hamCount = 0; // 非 垃圾 短信 数量 
double spamCount = 0; // 垃 圾 短信 数量 
double hamWordsCount = 0; // 非 垃圾 短信 单词 总 数 
double spamWrodsCount = 0; // 垃 圾 短信 单词 总 数 


for (int i=0; i<trainingList.size(); it+){ // 针 对 (和 矩阵 ) 所 有 单词 
Example data = trainingList. get (i); // 一 条 短信 
String type= data. getType( ); // 短 信 类 别 
String[ ] words = data. getMessage(). split("\\s+"); 
if (type. equals("ham")){ 
hamCount++; // 短 信和 数量 加 1 
hamWordsCount += words. length; // 单 词 数 量 加 


78 


80 
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for (int j=0; j< words.length; j++){ // 赋 值 
hamWords. add( words[j]); 
trainingSet. add(words[j]); 


} else if (type. equals("spam")){ 
spamCount++; // 短 信和 数量 加 1 
‘spamWrodsCount += words. length; // 单 词 数量 加 
for (int k=0; k< words.length; k++){ 
spamWords. add(words[k]); 
trainingSet. add(words[k]); 


1 


HashMap < String, Double> parameterList = new HashMap < String, Double>(); 
parameterList. put("hamCount"，hamCount); 

parameterList. put("spamCount", spamCount); 

parameterList. put ("hamWordsCount", hamWordsCount); 

parameterList. put("spamWrodsCount", spamWrodsCount); 


return parameterList; 


/ xx 
* 建立 单词 映射 表 
* @param hamWords 非 垃圾 短信 所 有 词 
*# @param spamWords 垃圾 短信 所 有 词 
* @param hamMap 非 垃圾 短信 单词 表 
* @param spanMap 垃圾 短信 单词 表 
*/ 
public void constructWordMap (ArrayList < String > hamWords, ArrayList < String > 
spamWords, 
HashMap < String, Double > hamMap, HashMap < String, Double > 
SpamMap) { 
for (int i=0; i< hamWords. size(); i++){ 
String word= hamWords. get(i); 


81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 
94 
95 
96 
97 
98 
99 
100 
101 
102 
103 
104 
105 
106 


107 


108 


109 


110 


2 


2 


if (hamMap. containsKey(word) ){ 
hamMap. put (word, hamMap. get(word) + 1); 
} else { 
hamMap. put (word, 1.0); 
} 
1 


for (int i=0; i< spamWords. size(); i++){ 
String word= spamWords. get (i); 
证 (spamMap. containsKey(word) ){ 
spanMap. put (word, spamMap. get(word) + 1); 
} else { 
spamMap. put (word, 1.0); 
1 


1 


/a 
* 构造 分 类 器 
* @param parameterList 参数 列表 
* @param trainingSet 训练 集中 不 重复 单词 集合 
* @param hanMap 非 垃圾 短信 单词 表 
* @param spanMap 垃圾 短信 单词 表 
* @return classification 训练 完毕 的 分 类 器 
*/ 
public Classification constructClassification ( HashMap < String, Double > 
parameterList, HashSet <String> trainingSet, 
HashMap < String, Double > hamMap, HashMap < String, Double > 
spamMap) { 
double hamCount = parameterList. get("hamCount"); // 非 垃圾 短信 数 
double spamCount = parameterList. get("spamCount");// 垃 圾 短信 数量 
double hamWordsCount = parameterList. get ("hamWordsCount" ); 
// 非 垃圾 短信 单词 总 数 
double spamWrodsCount = parameterList.get("spamWrodsCount"); 
// 垃 圾 短信 单词 总 数 
int count = trainingSet. size(); // 训 练 集 单词 类 别 总 数 
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is 
114 double hamProbability = hamCount / (hamCount + spamCount); 

// 非 垃圾 短信 概率 
115 double spamProbability= spamCount / (hamCount + spamCount) ; 

// 垃 圾 短信 概率 
116 
ly 
118 Classification classification = new Classification (hanMap, spamMap, 
hamProbability, spamprobability, 

119 hamWordsCount, spamWrodsCount, count); 
120 
121 return classification; 
3220 


123 public Classification constructClassification ( ArrayList < Double > 
parameterList, HashSet <String> trainingSet, 

124 HashMap < String, Double > hanMap, HashMap < String, Double > spamMap){ 

125 double hamCount = parameterList.get(0); 。 // 非 垃圾 短信 数量 

126 double spamCount = parameterList.get(1);  // 垃 圾 短信 数量 

127 double hamWordsCount = parameterList. get (2); // 非 垃圾 短信 单词 总 数 


128 double spamWrodsCount = parameterList.get(3); // 垃 圾 短信 单词 总 数 
129 double hamProbability = hamCount/ (hanCount + spamCount); 

// 非 垃圾 短信 概率 
130 double spamProbability = spamCount/(hamCount + spamCount) ; 

// 垃 圾 短信 概率 
91 int count = trainingSet. size( ); 
132 Classification classification = new Classification(hamMap, spamMap, 
133 hamProbability, spamprobability, hamWordsCount, 
spamWrodsCount, count); 

134 
335 return classification; 
135° 


训练 好 朴素 贝 叶 斯 分 类 器 后 ,需要 通过 测试 集 来 测试 分 类 的 正确 率 , 其 具体 过 程 
如 下 。 


umwmbP 


/x 
* 测试 朴素 贝 叶 斯 分 类 器 
* @paran testList 测试 集 
* @param classification 训练 完毕 的 分 类 器 
*/ 
public void test (ArrayList < Example > testList, Classification 
classification) { 
HashMap <String, Double> hamMap = classification.getHamMap(); 


// 非 垃圾 短信 单词 表 
HashMap < String, Double> spamMap = classification. getSpamMap( ); 
// 垃 圾 短信 单词 表 
double correctCount = 0; // 正 确 数量 
double rate= 0; // 正 确 率 


for (int i=0; i< testList. size(); it+){  // 所 有 测试 数据 
Example data = testList. get(i); 


double hamRate= 1; // 非 垃圾 短信 概率 
double spamRate= 1; // 垃 圾 短信 概率 
String type= new String(); // 预 测 类 型 


String[] words = data. getMessage(). split("\\s+"); 


//1 .计算 概率 
for (int j=0; j < words. length; j++){ // 一 条 测试 数据 
String word= words[j]; 
if (hamMap. containsKey(word) ){ // 计 算 成 为 非 垃圾 短信 概率 
hamRate * = (hamMap.get(word) +1) / (classification 
.getHamWordsCount() + classification.getCount() ); 
} else{ 
hamRate * =1/ (classification. getHamWordsCount()+ 
classification. getCount()); 
| 
if (spamMap. containsKey(word)){ ”// 计 算 成 为 垃圾 短信 概率 
spamRate * = (spamMap. get(word) +1) / (classification 
.getSpamWordsCount( ) + classification. getCount()); 
} else { 
spamRate * =1/ (classification. getSpamWordsCount () + 
classification. getCount()); 
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31 } 

vl } 

33 hamRate * = classification. getHamprobability(); 

34 spamRate * =classification.getSpanProbability(); 

35 hamRate = Math. 1og( hamRate); 

36 SpamRate = Math. log( spamRate); 

37 

38 1/2、 比较 概率 

39 证 (hamRate > spamRate) { 

40 type = "ham"; 

41 } else if (hamRate < spanRate) { 

42 type= "spam"; 

43 } else if (hamRate == spamRate) { 

44 type = "unknown"; 

45 } 

46 if (type. equals(data.getType())) 

47 CorrectCount++; 

48 } 

49 

50 rate= correctCount / testList. size(); 

5 System. out. println( "测试 集 数量 : " + testList. size()); 

52 System. out. println(" 预 测 正确 的 数量 : " + correctCount); 

53 System. out. println( "预测 错 误 的 数量 : "+ (testList. size() 一 
correctCount) ) ; 

54 System. out. println(" 正 确 率 : " + rate) ; 

55 } 


人 @ 2.3 实验 数据 


我 们 实验 所 用 数据 是 UCI 上 的 公开 数据 SMS Spam Collection Data Set( 网 址 链 
接 : http://archive. ics. uci. edu/ml/datasets. html) ,数据 集 共 包含 5574 条 短信 ,其 
中 了 H 类别 短信 为 非 垃圾 短信 ,S 类 别 短信 为 垃圾 短信 ,统计 后 发 现 还 有 一 些 短信 为 
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空 。 表 2-2 是 关于 该 数据 集 的 统计 信息 (数据 下 载 地 址 : http://archive. ics. uci edu/ 
ml/datasets/SMS 十 Spam 十 Collection) 。 


表 2-2 数据 统计 信息 

















数据 类 别 条 数 
Instances 5574 
H messages 4802 
S messages 747 
Blank 25 


@ 2.4 实验 结果 


2.4.1 结果 展示 


我 们 取 70 儿 的 数据 作为 训练 集训 练 贝 叶 斯 分 类 器 , 剩 下 30% 的 数据 作为 测试 
集 。 最 终 统计 分 类 正确 率 ,结果 如 表 2-3 所 示 。 


表 2-3 朴素 贝 叶 斯 分 类 结果 统计 

















分 类 结果 统 计 值 
测试 集 数量 1665 
预测 正确 的 数量 1620 
预测 错误 的 数量 45 
正确 率 97.2% 
2.4.2 结果 分 析 


编写 代码 运行 程序 后 得 到 数据 集中 短信 总 条 数 为 5549 条 ,选择 其 中 的 3884 条 
作为 训练 集 , 剩 下 的 1665 条 短信 作为 测试 集 ,分 类 的 正确 率 为 0. 97。 由 此 可 见 朴素 
贝 叶 斯 算法 能 够 很 好 地 对 文本 数据 进行 分 类 。 朴 素 贝 叶 斯 算法 由 于 其 条 件 独立 的 假 
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设 存 在 一 定 的 局 限 性 ,现实 中 待 分 类 的 样本 各 属性 之 间 都 或 多 或 少 存在 一 定 的 相关 
性 ,所 以 样本 各 属性 之 间 条 件 独 立 往往 也 是 不 成 立 的 , 当 属 性 之 间 相 关 性 越 强 时 ,分 
类 效果 则 可 能 会 越 差 。 但 对 于 文本 ,例如 短信 、 邮 件 的 分 类 中 ,朴素 贝 叶 斯 算法 取得 
了 和 良好 的 表现 。 这 里 有 学 者 提出 可 能 是 有 些 独立 假设 在 各 分 类 之 间 的 分 布 都 是 均匀 
的 ,所 以 对 于 似 然 的 相对 大 小 不 产生 影响 。 





C4.5 


@ 3.1 04.5 算 法 原理 


心理 测试 好 做 ,但 是 关键 是 这 些 测试 题 怎么 出 才 准 确 ? 答案 是 将 被 测试 的 群体 
量化 得 当 并 且 区 别 有 方 。 有 没有 方法 挑选 最 具 区 别 性 的 问题 ? 答案 之 一 是 条 件 
粹 一 一 C4. 5。 


3.1.1 C4.5 算 法 引入 


在 一 些 杂 志 或 者 网 站 上 ,我 们 经 常会 看 到 一 些 “ 心 理 测试 ”, 通 过 这 些 “ 测 试 " 可 以 
测试 性 格 , 测 试 运势 等 。 虽 然 这 些 心 理 测试 的 可 靠 性 没有 依据 ,但 能 够 起 到 一 定 的 娱 
乐 作用 。 如 图 3-1 所 示 是 截取 的 某 心理 测试 的 片段 。 

可 以 看 到 ,这 种 类 型 的 心理 测试 并 不 需要 将 测试 题 从头 到 尾 做 一 遍 , 而 是 根据 上 
一 题 的 选项 答案 进行 跳 转 ,直到 给 出 心理 类 型 ,这 就 是 一 个 决策 的 过 程 。 我 们 可 以 将 
测试 题 的 跳 转 形式 以 树 状 图 来 表示 ,每 一 个 节点 表示 一 个 题目 , 树 的 分 支 表 示 对 应 题 
目的 选项 答案 , 树 的 叶子 节点 表示 测试 的 结果 , 即 测试 心理 类 型 。 树 状 图 如 图 3-2 
所 示 。 
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1. 如 果 两 个 朋友 各 自在 你 面前 指责 对 方 , 你 会 随 他 们 的 意思 ,表现 出 对 另 一 方 的 不 
满 吗 ? 

是 的 -~2 题 不 是 7 题 

2. 你 觉得 自己 是 那 种 藏 不 住 心事 的 人 吗 ? 

是 的 ~8 题 不 是 3 题 


6. 朋友 们 都 喜欢 跟 你 聊 心事 ,发 泄 心情 吗 ? 
是 的 一 B 不 是 一 A 


11. 与 别人 相处 的 时 候 , 你 更 多 地 注重 对 方 做 事 的 一 些 细节 ,而 不 是 他 整个 人 的 性 
格 。 这 样 说 对 吗 ? 
正确 ~~D ”不 对 >C 





【心理 类 型 】 





A 圆 形 你 是 个 非常 圆滑 的 人 …… 
B 六 边 形 你 非常 开朗 大 方 
C 三 角形 你 的 个 性 很 冲动 …… 

D 萎 形 你 的 好 奇 心 特别 旺盛 …… 














图 3-1 某 心理 测试 片段 


由 图 3-2 可 以 看 出 ,不 同 的 选择 代表 着 不 同 的 决策 过 程 ,会 得 到 不 同 的 决策 结 
果 。 想 要 设计 这 样 的 心理 测试 ,除了 需要 收集 大 量 的 调查 结果 , 即 不 同性 格 的 人 对 不 
同 问题 的 回答 情况 的 数据 ,同时 需要 解决 两 个 问题 : 我 们 设计 的 心理 测试 题 的 顺 
序 是 什么 , 即 根据 上 一 题 的 选项 答案 应 该 跳 转 到 哪 一 题 ; 四 在 哪些 心理 测试 题 的 选 
项 答案 后 面 设置 测试 结果 。 这 其 实 也 就 是 一 棵 决策 树 的 设计 过 程 。 接 下 来 将 围绕 这 
两 个 问题 ,来 学 习 决策 树 C4. 5 算法 。 





图 3-2 心理 测试 树 状 图 


3.1.2 科学 问题 


1. 相关 理论 


决策 树 是 一 种 常见 的 分 类 和 回归 方法 ,本 章 主要 针对 分 类 决策 树 进行 讨论 。 分 
类 决策 树 描述 的 是 一 种 对 实例 样本 进行 分 类 的 树 状 结构 , 即 基于 特征 对 实例 进行 分 
类 的 过 程 ,决策 树 算法 的 目的 是 从 数据 样本 集中 归纳 出 一 组 具有 分 类 能 力 的 分 类 规 
则 。 由 于 能 对 训练 数据 进行 基本 正确 分 类 的 决策 树 可 能 有 多 个 或 者 没有 ,因此 ,我 们 
的 目标 是 找到 与 数据 样本 集 矛 盾 最 小 的 决策 树 。 

上 述 示例 即 届 于 分 类 决策 树 , 将 上 述 示 例 中 心理 测试 的 题目 答案 选项 以 及 测试 
的 心理 类 型 整体 看 成 是 数据 样本 集 , 心 理 测试 的 题目 看 成 是 特征 集合 ,测试 的 心理 类 
型 看 成 是 分 类 类 别 , 心 理 测试 题 的 设计 就 是 我 们 需要 构建 的 决策 树 。 示 例 中 所 需要 
解决 的 两 个 问题 也 是 决策 树 C4. 5 算法 所 需 解决 的 问题 。 给 定数 据 样本 集合 和 特征 
集合 ,我 们 要 解决 以 下 两 个 问题 。 

(1) 怎样 选择 特征 来 划分 特征 空间 ? 从 特征 集合 中 挑选 出 能 最 大 化 减 小 数据 样 
本 集 不 确定 性 程度 的 特征 ,将 其 作为 最 优 特征 来 划分 特征 空间 。 
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(2) 如 何 构 建 决策 树 ? 递归 地 选择 最 优 特征 ,并 根据 该 特征 对 数据 样本 集 进行 
分 割 , 使 得 对 每 个 子 集 都 有 一 个 最 好 的 分 类 ,得 到 一 个 与 数据 样本 集 了 矛盾 最 小 的 决 
策 树 。 


2. 问题 定义 


决策 树 算法 的 输入 是 数据 样本 集合 DD 三 {xi ,mm), (zy)，，Cxzwyyw)} 和 特征 
集合 A= {a ,as，,…,an)}。 其 中 ,M 表示 数据 样本 集合 中 样本 的 个 数 ; N 表示 特征 集 
合 中 特征 的 个 数 ; x 二 [zi ,zo，… ,znj 表 示 一 个 样本 的 特征 向 量 ,其 维度 为 N; yw 表 
示 样 本 的 分 类 标签 ; a, 表示 一 个 特征 ,x。 中 的 z, 表示 特征 a, 的 取 值 。 决 策 树 算法 
的 输出 是 一 个 与 数据 样本 集 矛 盾 最 小 的 决策 树 Tree 二 TreeGenerate(D,A)。 


3.1.3 算法 流程 


1. 特征 选择 


为 了 解决 科学 问题 1, 通 过 从 特征 集合 A= {w ,as，…,as} 中 挑选 出 能 最 大 化 减 
小 数据 样本 集 不 确定 性 程度 的 特征 , 即 wx 二 argmax。.G。(D,a,) 实 现 。 其 中 ,G。.(D， 
a,) 表 示 挑 选 特征 w 使 数据 样本 集 减 少 的 不 确定 性 程度 。 在 C4. 5 算法 中 ,我 们 用 信 
息 增益 比 来 表示 G。(D,a,)。 为 了 更 好 地 说 明 信 息 增益 比 ,下 面 先 了 解 一 下 有 关 焙 和 
信息 增益 的 概念 。 

在 信息 论 与 数理 统计 中 , 炉 表 示 的 是 对 随机 变量 不 确定 性 的 度量 ,条 件 炉 表 示 的 
是 在 已 知 某 个 随机 变量 的 条 件 下 ,对 另 一 随机 变量 不 确定 性 的 度量 。 我 们 分 别 用 
H(D) 表 示 数 据 样本 集合 D 的 焙 , 瑟 (Da,) 表 示 集 合 DD 在 条 件 a, 下 的 条 件 粹 。 假 设 
数据 样本 集合 D=={ (wy) ,x ,yo),…,(xm，ym)) 中 的 样本 个 数 为 M; D 中 样本 的 
分 类 为 Ci,k 二 1,2,…,K; 属于 每 个 类 别 C 的 样本 个 数 为 Mc 。 假 设 特征 集合 A= 
{a aav} 中 特征 的 个 数 为 N; 根据 特征 a, 的 取 值 将 D 划分 成 I 个 子 集 ,Di， 
DD;,…,Di, 子 集 D; 中 的 样本 个 数 为 M;。 记 子 集 Di 中 属于 类 别 Cx 的 样本 集合 为 
Du ,其 样本 个 数 为 M; 。 则 有 H(D) 和 H(D|a,) 的 计算 公式 如 下 : 














M 
H(D) =— 》) 一 alog, 一 人 (3-1) 
辫 M 082 M 
1 1 x 
M Me Ms, M 
H(D|a,) iH(D;) | 站 (3-2) 
lo) -Hm ME Me 


由 于 我 们 需要 挑选 出 能 最 大 化 减 小 数据 样本 集 不 确定 性 程度 的 特征 ,根据 粹 和 
条 件 炉 的 概念 ,可 以 知道 炉 与 条 件 炉 之 差 即 是 数据 样本 集 不 确定 性 程度 的 减少 量 , 我 
们 称 这 个 差 值 为 信息 增益 ,计算 公式 如 下 : 
Gain(D,a,) = H(D) — H(D | a,) (3-3) 
Gain(D,a,) 表 示 由 于 特征 a, 而 使 得 对 数据 样本 集 D 的 分 类 的 不 确定 性 减 小 的 
程度 , 则 我 们 应 该 选择 的 特征 为 信息 增益 最 大 的 特征 , 即 : 
a’ = argmax, Gain(D,a,) (3-4) 
如 果 以 信息 增益 准则 划分 数据 样本 集 ,存在 的 问题 是 偏向 于 选择 可 取 值 数目 较 
多 的 特征 。 为 了 减少 这 种 偏好 带 来 的 负面 影响 ,C4. 5 算法 采用 信息 增益 比 来 选择 最 
佳 划分 特征 。 信 息 增 益 比 , 即 信息 增益 Gain(D,a,) 与 数据 样本 集 D 关于 特征 a 的 
焙 互 。(D) 之 比 , 计 算 公 式 如 下 : 


_ Gain(D,a,) 
Gain_ratio(D,a,) = HOD) (3-5) 
1 
M; M: 和 
H..(D) = 一 3 Mle 允 (3-6) 


根据 信息 增益 比 准则 的 特征 选择 方法 是 : 对 数据 样本 集 D, 计 算 每 个 特征 的 信 
息 增益 比 并 比较 它们 的 大 小 ,选择 信息 增益 比 最 大 的 特征 来 划分 D, 即 : 
a» = argmax,.Gain_ratio(D,a,) (G0 
值得 一 提 的 是 ,信息 增益 并 不 是 决策 树 选取 特征 的 唯一 方法 。 基 尼 不 纯度 通常 
也 被 用 于 决策 树 中 特征 的 选取 。 尽 管 两 种 方法 有 截然 不 同 的 理论 背景 ,但 是 大 量 实 
验 表 明 , 这 两 种 方法 的 表现 并 没有 显著 差异 。 除 了 基尼 不 纯度 之 外 ,特征 的 分 割 度 也 
可 以 用 于 选取 特征 。 


2. 决策 树 的 生成 


为 了 解决 科学 问题 2, 通 过 递归 地 选择 最 优 特征 oz 二 argmax。.G。.(D,a,) ,并 根 
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据 该 特征 对 数据 样本 集 进 行 分 割 , 使 得 对 每 个 子 集 都 有 一 个 最 好 的 分 类 ,得 到 一 个 与 
数据 样本 矛盾 最 小 的 决策 树 Tree 二 CreateTree(D,A)。 

对 于 这 一 过 程 ,具体 的 方法 是 : 首先 ,构造 根 节点 ,将 所 有 的 数据 样本 都 放 在 根 
节点 。 然 后 根据 信息 增益 比 准则 选择 一 个 最 优 特征 进行 数据 样本 集 的 分 割 ,使 得 分 
割 后 的 各 个 子 集 在 当前 条 件 下 有 最 好 的 分 类 。 如 果子 集中 所 有 样本 均 被 正确 分 类 ， 
则 对 此 子 集 构造 叶子 节点 ; 若 仍 有 部 分 子 集中 的 样本 不 能 被 正确 分 类 , 则 对 这 部 分 
子 集 选择 新 的 最 优 特征 ,并 继续 对 其 分 割 子 集 , 构 造 相应 的 节点 。 对 各 个 节点 递归 地 
调用 上 述 方法 ,直到 所 有 数据 样本 都 能 被 正确 分 类 或 者 所 有 特征 都 已 被 使 用 。 最 后 
生成 了 一 棵 决策 树 ,数据 样本 集中 每 个 样本 都 被 分 到 对 应 的 叶子 节点 中 。 当 特征 数 
量 远 远 超 过 构建 决策 树 所 需 特征 数 时 ,在 构建 决策 树 之 前 ,可 以 先进 行 一 次 特征 得 
选 ,挑选 出 对 数据 样本 集 有 足够 分 类 能 力 的 特征 。 


3. 决策 树 的 使 用 


上 述 内 容 主要 介绍 了 如 何 从 原始 数据 样本 集中 创建 决策 树 ,下面 将 重点 放 在 如 
何 利用 决策 树 进行 数据 分 类 上 。 

依靠 训练 数据 创建 决策 树 以 后 ,利用 这 棵 决策 树 以 及 特征 集合 便 可 对 测试 数据 
进行 分 类 ,决策 树 的 使 用 同 生 成 过 程 类 似 , 依 旧 是 一 个 递归 过 程 。 对 每 一 个 测试 样 
本 ,比较 样本 在 决策 树 中 特征 节点 上 的 取 值 ,从 而 跳 转 到 下 一 个 节点 ,递归 执行 该 过 
程 ,直到 跳 转 到 叶子 节点 ,最 后 将 测试 数据 类 别 定义 为 该 叶子 节点 所 属 类 别 。 由 于 递 
归 构 造 决策 树 的 过 程 很 耗 时 ,为 了 提高 时 间 性 能 ,需要 将 创建 好 的 决策 树 存储 成 一 个 
对 象 ,在 对 测试 样本 每 次 执行 分 类 时 调用 已 经 创建 好 的 决策 树 直接 进行 分 类 。 


3.1.4 算法 描述 


根据 上 述 算法 流程 ,决策 树 C4. 5 算法 的 核心 思想 是 : 在 决策 树 的 各 个 节点 上 使 
用 信息 增益 比 准则 来 选择 特征 ,递归 地 构建 决策 树 。 在 C4. 5 算法 中 ,有 三 种 情形 会 
导致 递归 返回 : 当前 节点 中 的 所 有 样本 都 具有 相同 类 别 , 则 停止 划分 ,递归 返回 ; 
回 当 前 没有 剩余 特征 可 供 划 分 , 则 停止 划分 ,递归 返回 ; @ 当 前 节点 中 的 数据 样本 集 
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合 为 空 , 则 停止 划分 ,递归 返回 。 算 法 描述 如 下 。 


算法 4-1 C4.5 算 法 。 

输入 : 数据 样本 集合 D={ (x sy1) ,Cr , 风 )，…,(Cxwyyw)); 
特征 集合 A= {a ,as,… ,an}); 

过 程 : CreateTree(D.,A) 

1: 生成 树 节点 node; 

2: for A 的 每 一 个 未 被 用 来 划分 数据 集 的 特征 a, do 

3: ”按照 公式 (3-5) 计 算 信息 增益 比 Gain_ration(D,a,) ,并 比较 它们 的 大 小 

4 保存 信息 增益 比 最 大 的 特征 为 最 优 特征 a. 

5: end for 

6 

了 

8 

9 





站 D 中 所 有 样本 属于 同一 类 别 Cu then 

: 将 node 标记 为 Cs 类 别 的 叶子 节点 ; return 
: endif 
: fA=G or D 中 样本 在 A 上 取 值 完全 相同 then 

10: ”将 node 标记 为 叶子 节点 ,其 类 别 标记 为 包含 样本 数 最 多 的 类 

(Ci) rmx; return 

11:， end if 

12: if D= then 

13: return 

14: else 

15: ”根据 a. 的 每 一 个 取 值 a 分 割 样本 集 D, 得 到 样本 子 集 D， 

16: ”调用 CreateTree(D;,A\(a.)) 生 成 分 支 节点 

17: end if 

输出 : 以 node 为 根 节点 的 一 棵 决策 树 


3.1.5 补充 说 明 


在 决策 树 的 学 习 中 将 已 生成 的 树 进行 简化 的 过 程 称 为 剪 枝 。 为 了 尽 可 能 地 正确 








分 类 样本 ,节点 的 划分 过 程 可 能 会 不 断 重复 ,有 时 会 造成 决策 树 的 分 支 过 多 ,以 至 于 
将 一 些 不 具有 分 类 能 力 的 特征 用 户 划 分 数据 样本 集 ,从 而 导致 过 拟 合 ,降低 分 类 的 准 
确 性 。 因 此 ,可 以 通过 主动 剪 掉 一 些 分 支 来 降低 过 拟 合 的 影响 。 决 策 树 剪 枝 的 一 种 
方法 是 通过 极 小 化 决策 树 整体 的 损失 函数 来 实现 。 通 过 递归 地 从 树 的 叶子 节点 向 上 
回 缩 ,比较 叶子 节点 回 缩 到 父亲 节点 之 前 和 之 后 的 决策 树 的 损失 函数 值 ; 若 损 失 函 
数值 减 小 , 则 进行 剪 枝 并 将 其 父亲 节点 作为 新 的 叶子 节点 ; 重复 上 述 过 程 直 到 不 能 
前 枝 为 止 , 则 可 以 得 到 损失 函数 最 小 的 决策 树 。 


多 3.2 ”C4.5 算法 实现 


3.2.1 简介 


对 于 C4.5 算法 的 实现 ,我 们 采用 Java 语言 进行 实现 。 算 法 的 实现 流程 如 图 3-3 
所 示 , 具 体 的 类 名 称 及 其 描述 如 表 3-1 所 示 。 


MainClass e \)|/AlgorithmUii ionT Node Example 
ssl ) 文件 操作 类 CS 村 节点 类 外、 数据 类 


main | loadData 2 Example 


口 函数 一 [| 读 一 一 数据 封装 
i Be dataProcessing |4 Croat | 数据 圭 装 初始 化 
划分 训练 集 一 Seot -Se ae il 
和 济 试 集 构建 村 构建 季 点 
selectBestFeature -| 
选 岳 股 佳 特征 下 一 


















BetlnfoGainRatio 
计算 信息 增益 比 核心 
算法 
函数 样本 是 百 美 别 相同 
judgeFeatureUsed 
分 类 特征 是 否 用 充 








铺 肋 函数 





1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
judgeWholeCnt 1 
1 
1 
1 
1 
1 
1 
1 
1 





18 
10 递归 出 口 etSplitDataList | 


站 划分 数据 集 | 一 辅助 操作 > 测试 
tesujudoeType --- 核 心算 法 


测试 结 


























图 3-3 算法 设计 流程 图 





机 器 学 习 经 典 算法 实践 





表 3-1 类 名 称 及 其 描述 














类 名 称 类 描 述 

(描述 数据 样本 集合 中 的 数据 样本 点 ) 
成 员 变量 : 

Example private ArrayList <String> featureList; ”// 特 征 列表 
private String featureIndex; // 所 属 类 别 索引 
(描述 决策 树 中 的 树 节点 ) 
成 员 变量 : 
private String featureName; // 划 分 树 节点 的 特征 取 值 

Node private int featureIndex; // 划 分 树 节点 的 特征 
private ArrayList <Example> dataList; // 树 节点 存储 的 数据 
private ArrayList <Node > childrenList; 。 // 孩 子 列表 
Private String type; // 节 点 分 类 (只 有 叶子 节点 有 节点 分 类 ) 
(描述 文件 的 读 入 ) 
函数 : 

FileOperate /xx 读 取 数 据 样本 集 * / 
public static ArrayList < Example > loadData(String data_path, String 
label){ …} 
(描述 算法 的 工具 ) 
函数 : 

AlgorithmUtil | /xx 将 数据 集 按 比例 分 配给 训练 样本 列表 和 测试 样本 列表 * / 


public static ArrayList <ArrayList <Example >> dataProcessing(double 
trainRate, ArrayList <Example> dataList){…} 





Configuration 





(描述 工程 的 配置 ) 
成 员 变量 : 
public static final String DATA_PATH = "data/nursery. data"; 


// 数 据 存放 路 径 
public static final double TRAIN_RRTE = 0.7; // 训 练 集 比例 
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DecisionTree 





(描述 决策 树 C4. 5 算法 ) 
函数 : 


/xx 构造 决策 树 * / 
publ ic void creatTree( Node node){ …} 


/xx 测试 决策 树 分 类 器 */ 
public void test(ArrayList < Example > testList, Node classification) 
1 


/xx 选择 最 佳 划分 方式 */ 
public int selectBestFeature(ArrayList < Example> tempDataList){…} 


/ xx 计算 给 定 特征 的 信息 增益 比 */ 
public double getInfoGainRatio (ArrayList < Example > tempDataList, 
int featureIndex){ …} 


/ xx 计算 给 定数 据 集 的 炉 * / 
public double calcEnt( ArrayList < Example> tempDataList){…} 


/ x** 获取 给 定数 据 集 可 能 分 类 的 出 现 个 数 x / 
public Map < String, Integer > getLabelCount ( ArrayList < Example > 
tempDataList){-…} 


/ xx 获取 给 定 特征 的 不 同 取 值 * / 
public Map < String, Integer > getFeatureKeyMap( ArrayList < Example > 
tempDataList, int featureIndex){ …} 


/ xx 依据 给 定 特征 的 取 值 划分 数据 集 * / 
public ArrayList < Example > getSplitDataList (ArrayList < Example > 
tempDataList, int featureIndex, String featureName){ …} 








类 描 述 





DecisionTree 


/** 判断 子 节点 的 样本 类 别 是 否 为 同一 分 类 * / 
public boolean judgeWholeCnt (Node node){ …} 


/xx 判断 分 类 特征 是 否 用 完 * / 
publ ic boolean judgeFeatureUsed(Node node){…} 


/ xx 如 果 所 有 分 类 特征 都 被 用 完 , 则 采用 多 数 表决 方法 决定 节点 类 
别 */ 
public String majorityVote(ArrayList < Example> tempDataList){ …} 


/ xx 打印 决策 树 路 径 ( 先 序 ) * / 
public void printTreePath( Node node){…} 


/ xx 判断 一 条 测试 数据 的 类 别 * / 
public String judgeType(Example data, Node node){…} 


/** 计算 决策 树 分 类 器 的 准确 率 */ 
public double calcAccuracy(String[ ] truth, String[ ] prediction){…} 





MainClass 





(描述 算法 的 主 类 ) 
主 函 数 : 


public static void main(String[ ] args) {…} 


Example 用 来 描述 数据 ,数据 是 指 一 些 具有 多 种 特征 及 标签 的 样本 。Node 用 来 
描述 决策 树 中 的 树 节点 ,用 于 存储 树 结构 。FileOperate 用 来 描述 文件 的 读 入 。 
AlgorithmUtil 用 来 描述 算法 工具 ,包括 将 数据 集 划 分 成 训练 集 和 测试 集 。 
Configuration 用 来 描述 算法 的 相关 配置 ,如 读 入 的 文件 路 径 和 训练 集 的 比例 。 
DecisionTree 用 来 描述 决策 树 C4. 5 算法 ,包括 特征 选择 以 及 决策 树 的 生成 。 
MainClass 是 算法 的 主 类 , 主 函 数 在 该 类 中 。 
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3.2.2 核心 代码 


DecisionTree 类 中 有 计算 炉 的 方法 ,根据 公式 (3-1) 计 算 炉 , 具 体 如 下 。 


1 /xx 

2 * 计算 给 定数 据 集 的 炉 

3 * @param tenpDataList 临时 数据 集 

4 * @return ent 给 定数 据 集 的 箭 

5 wh 

6 public double calcEnt( ArrayList <Example> tempDataList) { 

7 double ent=0; ”// 初 始 炉 

8 

9 // 计 算 炉 

10 Map <String, Integer> labelCount = getLabelCount(tempDataList); 
// 记 录 各 个 类 别 包含 样本 数 的 map 表 

11 Iterator < String > 让 = labelCount.keySet(). iterator(); 

12 while (it. hasNext()) { 

13 String key = it. next(); 

14 int count = labelCount. get(key); 

15 double p= (double) count / (double) tempDataList. size(); 

16 ent -=p * Math. log(p) / Math.10g(2.0); 

17 lL 

18 return ent; 

19 } 


在 DecisionTree 类 中 ,计算 过 粹 和 条 件 人 后 ,根据 公式 (3-6) 计 算 一 个 特征 ai 的 
炉 , 然 后 根据 公式 (3-7) 计 算 并 选择 信息 增益 比 最 大 的 特征 作为 划分 数据 集 的 特征 。 
具体 如 下 。 


LA 

2 * 计算 给 定 特 征 的 信息 增益 比 

六 x @param tempDataList 临时 数据 集 

4 * @param featureIndex 特征 索引 

5 x @return infoGainRatio 给 定 特征 的 信息 增益 比 


*/ 
public double getInfoGainRatio(ArrayList <Eample> tempDataList, 
int featureIndex) { 


double ent = calcEnt( tempDataList); // 计 算 炉 
double conditionEnt = 0; // 计 算 条 件 焙 
double featureEnt = 0; // 计 算 特 征 值 的 炉 


Map < String，Integer > featureKeyMap = getFeatureKeyMap( tempDataList, 
featureIndex) ; // 获 取 该 特征 的 不 同 取 值 
Iterator <String> it = featureKeyMap. keySet(). iterator(); 
while (让 ,hasNext()){ 
String featureName = it. next(); 
ArrayList <Example> splitDataList = getSplitDataList 
(tempDataList, 
featureIndex，featureName) ; // 划 分 数据 集 
double p= (double) splitDataList. size() 
/ (double) tempDataList. size(); 
double splitDataListEnt =p * calcEnt(splitDataList); 
// 计 算 划 分 后 数据 集 的 条 件 入 
double featureEntForOne = ~p * Math. log(p) / Math. log(2.0); 
// 计 算 划 分 数据 集 的 特征 值 的 箭 
conditionEnt += splitDataListEnt; 
featureEnt += featureEntForOne; 
1 
double infoGainRatio = (ent - conditionEnt) / featureEnt; 
/计算 信息 增益 比 
return infoGainRatio; 
上 


/x 
* 选择 最 优 划 分 特征 
* @param tempDataList 临时 数据 集 
* @return bestFeature 最 佳 特征 索引 
x*/ 
public int selectBestFeature( ArrayList <Example> tempDataList) { 
int featureCount = tempDataList. get(0). getFeatureList(). size(); 
// 特 征 个 数 
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38 double infoGainRatioMax=0;  ”// 最 大 信息 增益 比 

39 int bestFeature= — 1; // 划 分 方式 的 特征 索引 
40 

41 for (int i=0; i< featureCount; i++){ 

42 double infoGainRatio = getInfoGainRatio(tempDataList, i); 
43 if (infoGainRatioMax < infoGainRatio) { 

44 infoGainRatioMax = infoGainRatio; 

45 bestFeature= i; 

46 } 

47 人 

48 return bestFeature; 

49 } 


在 DecisionTree 类 中 ,最 主要 的 函数 是 递归 生成 决策 树 , 具 体 如 下 。 


1 /xx 
2 * 构造 决策 树 
3 * @param node 树 节点 
4 */ 
5 public void creatTree( Node node) { 
6 // 选 择 最 优 划分 特征 
学 int bestFeature = selectBestFeature( node. getDataList()); 
8 
9 // 当 前 节点 中 包含 的 样本 完全 属于 同一 类 别 ,无 须 划分 (递归 返回 出 口 1) 
10 if (judgeWholeCnt(node) ){ 
1 String type = node. getDataList().get(0). getFeatureIndex( ); 
12 node. setTYpe(type) ; 
3 return; 
14 } 
15 // 当 前 特征 集合 为 空 ,无 法 划分 (递归 返回 出 口 2) 
16 if (judgeFeatureUsed(node) ){ 
17 String type= majorityVote(node. getDataList()); 
// 取 样本 数 最 多 的 类 别 
18 node. setType(type); 
19 return; 


24 


// 当 前 节点 包含 的 样本 集合 为 空 ,不 能 划分 , 此 时 不 会 生成 新 的 节点 (递归 返 
// 回 出 口 3) 
if (node. getDataList(). size()==0) { 

return; 


1! 


// 递 归 构 造 决策 树 ,更 新 节点 的 孩子 列表 


else{ 
ArrayList <Node> childrenList = new ArrayList <Node>(); 
// 创 建 孩子 列表 


// 获 取 最 佳 划分 方式 的 特征 取 值 
Map < String，Integer > featureKeyMap = getFeatureKeyMap( 
node. getDataList(), bestFeature); 

Iterator< String> 让 = featureKeyMap. keySet(). iterator(); 
while (让 .hasNext()) { 

String featureName = it. next(); 

RrrayList<Example> dataList = getSplitDataList( 

node. getDataList( ) ，bestFeature，featureName) ; 


// 删 除 用 过 的 属性 ,用 "null" 蔡 代 

for (int i=0; i<dataList.size(); i++){ 
ArrayList < String > xList = dataList. get(i). 
getFeatureList(); 
xList. set(bestFeature, "null"); 

! 

Node childTree = new Node( featureName, bestFeature, 

dataList) ; 


// 递 归 
creatTree(childTree); 
childrenList.add(childTree) ; 

1 

node. setChildrenbist(childrenList); 
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决策 树 构造 完成 后 ,对 新 给 出 的 样本 数据 进行 测试 并 判别 分 类 ,具体 如 下 。 


Ll /xx 

2 * 判断 一 条 测试 数据 的 类 别 

3 * @paran data 一 条 测试 数据 
4 * @paranm node 树 节点 

E * @return String 数据 类 别 

6 */ 

7 public String judgeType( Example data, Node node) { 
8 // 如 果 是 叶子 节点 , 则 返回 叶子 节点 类 别 并 返回 
9 证 (node. getType() != null){ 


10 return node. getType(); 

11 } 

12 // 人 遍历 节点 的 孩子 列表 , 找到 对 应 特征 以 及 对 应 的 值 

13 else { 

14 RrrayList < String> featureList = data. getFeatureList(); 
5 ArrayList <Node> childrenList = node. getChildrenList(); 
16 for (int i=0; i<childrenList. size(); i++){ 

17 Node childNode = childrenList. get(i); 

18 int featureIndex = childNode. getFeatureIndex(); 

19 String featureName = childNode. getFeatureNanme( ); 

20 if (featureList. get( featureIndex) .equals(featureName)){ 
21 return judgeType(data, childNode); 

22 } 

23 } 

24 } 

25 return null; 

26 } 


人 @ 3.3 实验 数据 


我 们 的 实验 数据 选 自 UCI 数据库 (网 址 链接 : http://archive. ics. uci edu/ml/)， 
数据 集 nursery. data 是 一 个 幼儿 园 数据 集 (数据 下 载 地 址 : http://archive. ics. uci. 





edu/ml/machine-learning-databases/nursery/nursery. data) 。 该 数据 集 包 含 12 960 
个 人 学 儿童 的 自身 及 家 庭 状 况 以 及 是 否 推荐 他 们 和 学 ,其 具体 统计 信息 如 表 3-2 





























所 示 。 

表 3-2 数据 集 统 计 信息 
数 据 集 统计 信息 
parents usual，pretentious, great_pret 
has_nurs proper,less_proper，improper，critical，very_crit 
form complete, completed, incomplete, foster 
children 1, 2, 3, more 
housing convenient, less_conv, critical 
finance convenient,inconv 
social non-prob, slightly_prob, problematic 
health recommended, priority ,not_recom 











not_recom, recommend, very_recom, priority, spec_prior 


使 用 以 上 数据 集 对 C4. 5 算法 进行 测试 ,抽取 的 训练 数据 集 和 测试 数据 集 的 比例 
为 7: 3, 运 行 结果 如 表 3-3 所 示 。 











表 3-3 ”测试 结果 
测 试 项 测试 结果 
{7—priority—>{ 1 一 critical 一 >{ 0 一 usual 一 >{ 4—less _conv—>1{3 
3 一 >:spec_prior}{3 一 2 一 >{ 2 一 complete 一 >:priority}{2 一 foster 一 >: 
生成 决策 树 (部 分 ) | spec_prior) { 2 一 completed 一 >: priority) ……- {13 一 more 一 >: spec _— 





prior}} {5—convenient—>: priority})}}}} 17 一 not _recom 一 >: not 


recom} 
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续 表 
测 试 项 测试 结果 
测试 正确 率 0.974 022 633 744 856 
运行 时 间 546ms 
3.4.2 结果 分 析 


观察 上 述 数据 集 的 实验 结果 可 以 发 现 ,通过 决策 树 构建 的 分 类 规则 直观 且 易 于 
理解 ,程序 运行 时 间 较 短 且 正确 率 较 高 , 较 好 地 表现 出 C4. 5 算法 计算 速度 快 、 准 确 性 
较 高 的 特点 。 

然而 在 有 噪声 的 情况 下 ,C4. 5 算法 会 对 训练 数据 完全 拟 合 ,产生 过 拟 合 现象 。 
对 训练 数据 的 完全 拟 合 反而 不 具有 很 好 的 预测 性 能 ,会 降低 对 测试 数据 的 分 类 准确 
性 。 为 了 克服 过 拟 合 问题 ,决策 树 的 剪 枝 是 解决 该 问题 的 主要 手段 。 





SVM 


@ 4.1 SVM 算法 原理 


首先 来 讨论 两 个 问题 DSVM 的 形 。 如 果 存 在 两 个 线性 可 分 的 簇 ,怎么 使 划分 
更 精确 ?用 最 能 代表 交界 的 几 个 样本 来 替代 。@SVM 的 神 。 对 于 线性 不 可 分 的 样 
本 (例如 各 种 系统 的 非 线性 ), 与 其 考虑 如 何 选 一 个 合适 的 数学 模型 来 去 区 分 ,不 如 找 
一 个 合适 的 方法 来 对 数据 本 身 进行 变换 ,使 其 在 一 定 程度 上 能 线性 可 分 。 


4.1.1 算法 引入 


在 使 用 线性 分 类 器 对 同样 的 数据 集 进行 分 类 时 ,观察 图 4-1 中 的 两 种 方法 , 哪 一 
种 效果 更 优 ? 

更 符合 人 们 理解 的 是 图 4-1(b) 的 方法 ,因为 它 看 上 去 是 从 〇 和 XX 两 个 类 别 的 “最 
中 间 ” 分 开 的 ,这 在 处 理 一 些 更 困难 问题 的 时 候 表现 会 更 好 ,例如 对 图 4-2 中 新 输入 
的 分 类 : 新 的 输入 明显 更 偏向 于 X ,但 是 图 4-2(a) 给 出 了 错误 的 分 类 结果 ,这 表明 
图 和 2(b) 的 方法 更 健壮 ,因为 它 使 离 分 割 线 最 近 的 点 到 分 割 线 的 距离 最 远 ,如 图 4-3 
所 示 。 








O09 OHO 
O00 或 000 
站 二 8 
X X 
Xx 泡汤 
0 二 0 加 | 
图 4-1 线性 分 类 器 的 不 同方 法 
ooo 000 和 必 
Oo oO a Oo 8 K 
Ro 间 源 避 
= X ps x 
交 XX WY 入 交 





一 一 
0 O (b) 


4-2 增加 新 输入 的 分 类 器 效果 对 比 








图 4-3 线性 分 类 器 的 几何 间隔 


其 中 ,qd 大 于 任何 其 他 方法 找到 的 di。 也 就 是 说 ,最 佳 的 线性 分 类 器 就 是 能 够 
满足 上 述 条 件 , 即 “ 离 分 割 线 最 近 的 点 到 分 割 线 的 距离 最 大 ”。 这 样 做 的 好 处 有 很 多 ， 
如 分 割 线 由 极 少数 的 几 个 点 决定 ; 离 分 割 线 越 远 分 类 的 准确 性 越 高 ; 给 模糊 的 点 留 
下 了 最 大 的 空间 (也 就 是 图 中 虚线 之 间 部 分 的 面积 最 大 ) ,在 这 段 空间 之 内 两 种 分 类 
各 占 一 半 , 容 错 率 更 高 。 


4.1.2 科学 问题 


现在 将 4.1.1 节 的 问题 形式 化 。 如 图 44 所 示 , 将 两 种 类 型 标记 为 正 负 两 种 样 
本 ,其 中 , 〇 为 十 1,X 为 一 1, 用 f(x) 二 wrzr 十 b 二 0 表示 分 割 超 平面 (上 文中 的 分 割 
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线 , 其 总 是 比 当前 坐标 轴 少 一 个 维度 ) ,使 超 平面 正 样本 一 侧 所 有 的 点 满足 f(z) 二 
zz 十 0 之 1, 负 样本 一 侧 所 有 的 点 满足 f(x) 二 w"。z 十 b 过 一 1, 最 终 任何 一 侧 的 点 
都 满足 y;(w"zi 十 中 宇 1。 我 们 的 目的 就 是 确定 这 里 面 的 参数 w 和 4b。 距离 超 平面 最 
近 的 点 称 为 支持 向 量 , 超 平面 是 仅 由 支持 向 量 确定 的 。 定 义 函 数 间隔 一 >(xzerz 十 急 
为 优化 对 象 ,目的 是 使 支持 向 量 对 应 的 函数 间隔 最 大 化 。 但 是 这 样 是 有 问题 的 ,如 果 
等 比例 地 放大 或 缩小 w 和 b, 函数 间 隔 变 为 原来 的 两 们 ,但 是 分 割 超 平面 f(z) 一 


2w"z 十 2b 二 0 并 没有 变 ,因此 在 此 基础 上 定义 几何 间隔 = 本 世 和 " 且 因 定 数 间隔 








7=1( 即 支持 向 量 的 f(x) ==wrz 十 b 函数 值 为 1 或 一 1), 则 几何 间隔 y= 


上 ezr 久 1- 1 ,代表 支持 向 量 到 分 割 超 平 面 的 距离 。 
Tl Tl 








图 4-4 几何 间隔 最 大 化 


现在 我 们 的 目标 是 使 几何 间隔 最 大 化 , 即 : 
maxy， s.t., y(w'r+bh) 宇 1 (4-1) 


4.1.3 算法 流程 


1. 优化 问题 
下 面 将 上 述 的 科学 问题 转换 为 等 价 的 优化 问题 。 由 于 7 一 站 lwl >0， 
因此 : 
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。 
max To = min 
Mwl 


所 以 寻找 分 割 超 平面 的 问题 变 为 一 个 优化 问题 : 
min 二 | me?， st yilwizith) >1 (4-2) 
此 处 引入 经 典 的 拉 格 朗 日 算 子 法 ,上 述 输入 等 价 于 : 
工 (zuvba) = ll wl’— Dalyra th =1]; &0 (4-3) 
这 个 方法 可 以 有 效 地 约束 每 个 点 。 令 0(w) 一 maxL(w,b,a), 要 想 最 大 化 Es 
yi(w" Xi 十 b) 一 1 的 正 负 是 关键 : 假设 存在 某 个 点 y;(w'zi 十 ) 过 1, 则 0(w)= 二 oo, 无 


意义 ,因此 这 个 式 子 中 每 个 点 都 必须 满足 大 于 等 于 1, 其 中 又 要 使 支持 向 量 保证 
yiCerzi 十 0 一 1,ai 二 0; 非 支持 向 量 w(zrz 十 六 二 1,ai=0, 这 样 就 实现 了 影响 分 割 





超 平面 的 仅 是 支持 向 量 。 当 所 有 点 都 满足 时 ,ga 一 二 | 多 ,所 以 min 去 | 也 用 一 
minb(xze) 。 我 们 的 目的 是 求解 zw 和 ,因此 目标 函数 变 成 了 : 
min 立 lwl? 一 minbw) = min max L(w,b,a) (4-4) 
设 min0(w) 二 minmaxL(w,b,a) 二 p" ,这 是 一 个 先 求 最 大 值 再 求 最 小 值 的 问题 , 设 它 
的 对 偶 问题 为 maxminL(w,b,a) 二 d* ,是 先 求 最 小 值 再 求 最 大 值 .所 以 必然 有 : d* 过 
p"。 而 通常 ,在 满足 KKT 条 件 时 ,有 d* 二 p" 。 下 面 对 这 个 对 偶 问 题 进 行 求解 。 
先 固定 a, 即 将 a 作为 已 知 数 , 求 工 对 ww 的 极 小 值 , 即 分 别 求 偏 导 : 


aL 总 
~0w= 3 
3 0 一 也 di 


aL_ > 二 
元 三 > Dey =0 


其 中 ,zm 为 样本 个 数 ,将 上 式 代 入 原 L(tw,b,a) 得 : 
L(w,b,a)= 3 3 全 » DanyiysaTz, = Da 
De -二 > Daiyiyi (71s 5) 
其 中 ,二 zi ,zj 二 代表 内 积 。 此 时 已 经 没有 了 ww 和 b, 只 要 求 出 a; 可 得 : 





Ww 二 pe 
=1 


b=y—wr, for some a>0 (4-5) 
综 上 ,优化 问题 变 成 了 : 
max Da 二 pp Danjyiy; << TiyZi 之 
St. a0, i=1,2,3,m, Dlayi=0 (4-6) 


以 上 的 推导 都 是 假设 数据 集 是 线性 可 分 的 。 当 数据 存在 噪声 点 (outliner) 时 , 需 
要 加 入 松弛 变量 ,用 来 控制 寻找 几何 间隔 最 大 超 平面 ,与 保证 数据 点 偏差 最 小 之 间 的 
权重 ,如 图 4-5 所 示 。 


000 和 O09 
000,” OX ooo Q-x 
Ox 0 -2 次 

Rs x po x 
下放 交 义 有 文 





图 4-5 加 入 松弛 变量 的 分 类 器 


这 是 因为 ,有 时 候 输入 的 数据 就 是 有 错 的 ,原本 在 十 1 方向 的 点 被 标记 成 了 一 1， 
导致 找 不 到 一 个 超 平面 来 分 割 数据 集 , 或 者 这 样 分 的 代价 太 大 了 。outliner 也 会 影响 
分 割 超 平面 ,因此 也 是 支持 向 量 。 考 虑 outliner 后 约束 条 件 为 y; (ww 十 b) 宇 1 一 5;， 
其 中 ,5 为 松弛 变量 ,这 样 做 的 目的 是 保证 当 &; 足够 大 时 ,那么 任何 错误 的 点 都 可 以 
满足 不 等 式 w(rzrauw 十 六 三 1 一 各 。 引 入 参数 C, 用 来 控制 “寻找 margin 最 大 的 超 平 
面 , 且 保 证 每 个 数据 点 偏差 最 小 ”的 权重 ,是 需要 手动 输入 的 参数 ,而 &; 需要 优化 。 现 
在 目标 函数 为 : 


min 人 二 lwl*+CD)t:), 
St, ywrth)>1—t, t>0 (4-7) 
重新 写 出 拉 格 朗 日 算 子 : 
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Log 站 = wl + CRE PalywrzthD 1+ — Dr 


(4-8) 
将 其 对 ww,b,5 求 导 , 得 : 
四 = 0 一 u 一 > yaiyiri 
FF=0> Day =0 (4-9) 
于 = 0=>C=atr; 


可 以 发 现 ,此 时 已 经 没有 &, 说 明 它 并 不 影响 最 终 的 结果 。 因 此 ,加 入 C 之 后 优 
化 问题 为 ; 


max > )a = ED Daiajyiy; < ii 人 
“i=l 


Sst, OXa<C, Day=0 (4-10) 

当 求 得 a, 分割 超 平面 中 的 参数 也 可 以 得 到 。 到 目前 为 止 ,已 经 顺利 地 将 科学 问 
题 转换 为 一 个 优化 问题 。 但 是 , 它 并 不 是 可 以 直接 在 计算 机 中 运行 的 程序 。 下 面 介 
绍 解决 SVM 中 优化 问题 的 经 典 算法 一 一 Sequential Minimal Optimization (SMO)。 


2. SMO 算法 
定义 输出 函数 v 一 也 * 工 一 多 等 价 于 f(z) 二 wTz 十 b) ,优化 问题 的 解 为 : 
全 一 yaiz 
b= Ti—y, forsome C>a>0 (4-11) 


代入 得 w 二 》) yajk (zi,zj) 一 b ,引入 对 侦 因子 ,加 入 松弛 变量 得 : 
miny(a) = min 3D Daajyyik ris) — Da 


a m= (4-12) 
4.1.2 节 讲 过 ,对 于 非 支持 向 量 ,满足 yw; 宇 1, 则 不 影响 结果 ,因此 a; 二 0; 对 于 
支持 向 量 ,yiu; 二 1, 会 影响 结果 , 则 0<a<<C; 对 于 outliner, yiw; 志 1, 会 影响 结果 但 是 





不 能 太 大 , 则 a; 二 C。 上 面 三 个 条 件 为 KKT 条 件 , 即 优化 过 程 中 需要 满足 的 条 件 。 

1) a 的 更 新 规则 

在 满足 这 些 条 件 的 情况 下 更 新 这 个 参数 ,使 目标 函数 最 小 化 的 算法 即 为 SMO 算 
法 。 该 算法 在 约束 条 件 下 更 新 a。 由 于 有 约束 > aay; 二 0, 因此 每 次 更 新 两 个 a, 固 
定 其 他 ,使 : 


a yi + a ys 一 aty + oys 一 一 Dyaiy: = static (4-13) 
他 


利用 wm 十 cy 一 static 可 以 消去 mw, 得 到 关于 单 变量 a 的 一 个 二 次 凸 优化 问 
题 ,在 不 考虑 0<as<<C 的 情况 下 有 : 


a 一 oe 十 四 BD (4-14) 
其 中 ,Ei 二 一 yi,7 王 R(T) 十 (ZTjvZTj) 一 2k(Xi,zj) ,考虑 到 0<as<C, 结 果 为 : 
H, ao" 过 万 
wa" 一 a2™ 
Lr "二 
ae 二 a 十 yiyj(a — ad") (4-15) 


理论 上 ,这 里 的 wm 和 w 可 以 随机 选取 ,但 是 为 了 提高 收敛 速度 ,可 以 通过 以 下 办 
法 找到 。 

(1) 对 于 a ,遍历 所 有 a, 找 到 不 满足 KKT 条 件 的 任意 一 个 a; 

(2) 对 于 a2, 通过 找到 max|E, 一 E,| 的 j 来 得 到 。 

2)b 的 更 新 规则 

当 a 满足 KKT 条 件 时 ,wm (aarm 十 念 =1, 即 Payka+b= 二 %, 又 EB 二 ww 一 % 二 


Daiyika 一 0 一 % ,于 是 
各 
BW" = yO— Darvyk(zi, 1) 
各 


= — Dayk(zisn) —a kn,n) — a yk(z ,xs) 
名 


由 于 : 
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FE=u—y 


= Dayk(zi7) 一 加 一 轴 


宇 > aiy 交 (2 Zi) 十 o 蜡 y 炎 (zi 71) + a yk(z1 72) — 6 — yn 
一 


所 以 : 
nn — Dayk(nis zi) 
名 
一 加 一 尼 +aryk(n ,rT) + a yk(r ,rs) (4-16) 
所 以 上 式 写 成 : 
6 = bu —E— yk Tr) a" 一 afd) 一 yziyz)(ale 一 aa) 
因此 ,6 的 更 新 规则 为 : 


bow! = 6b—E—y (a™ 一 afd)ACzyz) 一 (as — a )k(z ,zs) 


baoe = 6b— E,— ya™ —ar)k(z Zi) 一 (ay — a ) k(x xs) 


Diem, Oo<C 
pr = bene, 0<m<C (4-17) 
Com 十 bm) ， otherwise 
5 s 
4.1.4 算法 描述 
下 面 给 出 算法 伪 代码 。 


算法 4-1 SMO 算法 。 
输入 : 训练 数据 集合 D=={ (zi yi) ,(za,y )，…(Cznyyn)} ,参数 C 
初始 化 参数 集合 a; 二 0,6==0, 其 中 ,i=1,2,3,…,m 
过 程 : 
1:， 定义 布尔 变量 flag 表示 是 否 遍 有 历 整个 数据 集 ; 定义 int 型 变量 countChange 
记录 每 次 循环 后 改变 的 a 对; 定义 int 型 变量 max 表示 最 大 迭代 次 数 。 








2: while 循环 次 数 小 于 max, 且 (countChange 大 于 0 或 flag 为 真 ) do 

3: 诈 flag 为 真 then 

4; for 每 一 个 a; do 

5: F(1)" :寻找 最 适合 与 w 一 起 更 新 的 a; 并 同时 更 新 a;,aj,b; 如 
果 有 a 对 的 更 新 , 则 countChange 自 增 1 

6 end for 

7: else 

8: 找到 所 有 不 等 于 0 和 C 的 集合 {a:} 

9: for 每 一 个 a; do 

10: F(1) :寻找 最 适合 与 w 一 起 更 新 的 a; 并 同时 更 新 aiw,a;,b; 如 
果 有 a 对 的 更 新 , 则 countChange 自 增 1 

11: end for 

12， end if 


13; if flag do flag:=false 

14: else if countChange 为 0 do flag: = true 
15: end if 

16: end while 

17: return 


输出 : 训练 好 的 参数 集合 a;,6 


上 述 算法 过 程 中 涉及 一 个 内 循环 算法 F(1), 即 在 已 知 需要 更 新 的 w 的 情况 下 找 
到 最 适合 与 它 一 起 更 新 的 w ,并 同时 更 新 ww 和 5。F(1) 的 伪 代 码 如 下 。 





算法 42 F(1)。 

输入 : 训练 数据 集合 D={ (x y1) ,x25y2) (x5 ym)) sa; 
过 程 : 

1: 计算 E,=u 一 y;= 二 wz; 一 b 一 yy; 

2: ” 放 a 不 满足 KKT 条 件 then 
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找到 使 |E; 一 E;| 最 大 的 w 
if y;= y; then 
L=max(0,a;—ai); H=min(C,C+a;—a;) 


L=max(0,a; tai—C); H=min(C,a;ta;) 
end if 
if L==H then return 0 end if 

10; y=2<r7> < < ri> 

11: if 7>0 then return 0 end if 

od Yi(E—E,) 


3 
4 
5 
6; else 
7 
8 
9 


12: 更 新 a》™ :二 a? ~ EELL,H] 
13: if |ay™—a |20 then return 0 end if 
14 oo 一 Es 
15， b= —E— ya —at) < Ti>— ya —aM)<zi, x)>; 
16: b= —E— ya —at)<zz>— ya —a)<z) Tz > 
17: if y;>0 且 a<C then b=h, 
18: else 证 y;>0 且 a;<C then b=b, 
19 else br tthe 
2 
20: end if 
21: return 1 
22: else return 0 
23: end if 


输出 : 如 果 成 功 更 新 ,返回 1; 否则 返回 0。 


4.1.5 补充 说 明 


总 的 来 说 ,SVM 本 质 上 是 一 个 分 类 方法 ,用 分 割 超 平面 f(z) 二 w 。zx 十 b 定义 





分 类 函数 。 于 是 求 ww,b 代表 的 最 大 间隔 ,引出 二 上 z 儿 ,继而 引出 拉 格 朗 日 因子 ,化 


为 对 拉 格 朗 日 乘 子 a 的 求解 ,求解 wb 与 求解 a 等 价 。 最 后 ,利用 SMO 算法 在 训练 
集中 学 习 a, 学 习 的 目的 是 优化 不 满足 KKT 条 件 的 a。 另 外 , 核 函 数 的 作用 是 为 处 理 
非 线性 的 情况 ,如 果 直 接 映射 到 高 维 ,会 导致 维度 爆炸 ,因此 引入 核 函数 ,使 在 低 维 的 
运算 中 得 到 高 维 的 等 效 效果 。 下 面 简 要 介绍 一 下 核 函 数 ,然后 补充 一 些 对 SVM 算法 
的 证 明 。 


1. 核 函 数 


以 上 伪 代 码 中 ,zi; 都 是 成 对 出 现 的 , 且 都 伴随 着 二 zxi，。 xz; 二 这 样 的 内 积 运 算 , 这 
是 SVM 算法 一 个 比较 巧妙 的 地 方 , 它 使 得 任何 与 x 有 关 的 运算 都 是 线性 复杂 度 的 ， 
因此 , 当 z 的 属性 个 数 增长 比较 快 的 情况 下 ,算法 的 时 间 复 杂 度 始终 是 线性 的 ,理论 
上 ,SVM 算法 可 以 处 理 z 的 属性 为 无 限 个 的 情况 。 

当 输 入 数据 本 来 就 是 线性 不 可 分 的 情况 下 ,有 时候 希望 用 一 条 曲线 来 对 数据 集 
进行 划分 。 

如 图 4-6 所 示 , 分 割 超 平面 更 接近 一 条 椭圆 线 ,因此 圆锥 曲线 公式 更 适合 , 即 wz 十 
于 十 sy 十 如 十 asxizz 十 as 二 0, 这 时 构造 二 维 到 五 维 空间 的 一 个 映射 8(x): 

Zi 一 站 





图 4-6 非 线性 分 类 器 
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这 样 新 的 公式 为 : Dazita 三 0。 也 就 是 说 , 低 维 空间 的 任何 曲线 均 可 以 映 
射 到 高 维 空间 中 的 直线 。 因 此 ,解决 SVM 算法 中 非 线性 分 割 的 问题 ,理论 上 ,可 以 通 
过 穷 举 所 有 可 能 的 映射 ,再 对 映射 的 结果 进行 内 积 运算 。 但 是 , 穷 举 所 有 的 映射 方式 
很 可 能 造成 维度 爆炸 。 例 如 , 当 属性 个 数 为 2 的 时 候 , 映 射 有 5 个 维度 ; 当 属 性 个 数 
为 3 的 时 候 , 映 射 就 有 19 个 维度 。 

另 一 方面 ,在 SVM 算法 中 ,如 前 所 述 , 所 有 的 z; 都 是 以 一 ziyz 盖 内 积 的 形式 存 
在 的 , 即 属性 进行 映射 之 后 均 存 在 内 积 运算 ,而 所 有 映射 之 后 的 内 积 运算 均 可 以 找到 
等 价 的 内 积 之 后 再 映射 的 结果 。 例 如 : 刀 一 ( 九 , 关 ) ,za 一 (5 和, 名) ,通过 前 面 的 二 阶 映 
射 g. ) 得 到 结果 gz) 一 ( 态 , 而 , 因 , 天 帮 罗 ,1) gz) 一 (5 各 名 各 ,5 名 ,1) , 则 映射 
之 后 再 进行 内 积 运算 ,结果 为 <%(zi),g( 闻 ) 之 一 态 和 十 站 和 十 六 名 十 闫 吕 十 力 疙 三 名 十 1。 
因此 ,内 积 之 后 的 映射 (过 zi zz 盖 十 1 一 2 妨 生 十 天 各 十 2 态 名 十 并 总 十 2 用 六 和 名 十 1 可 
以 等 价 为 先进 行 另 一 个 映射 PCm ,za )=(V2m 了,V2m 好 ,V2ziz 1) 之 后 再 求 
内 积 。 

由 此 可 见 , 当 两 个 x 同时 出 现 的 时 候 , 先 内 积 再 映射 ,可 以 找到 等 价 的 先 映射 再 
内 积 的 过 程 ,它们 的 区 别 在 于 一 个 是 先 映射 到 高 维 空间 ,再 在 高 维 空间 中 求 内 积 ; 另 
一 个 先 在 低 维 空间 中 计算 好 内 积 , 不 用 显 式 地 写 出 映射 公式 ,因此 就 不 存在 维度 爆炸 
的 问题 。 

将 两 个 向 量 在 隐 式 映射 过 后 再 进行 内 积 计 算 的 函数 叫 作 核 函 数 ,例如 上 面 的 
k(xi,T2y) 二 (之 1 ,zo 之 十 1)? 就 可 以 视 为 一 个 核 函 数 。 而 恰好 在 SVM 中 需要 计算 向 
量 工 的 地 方 都 是 以 两 个 向 量 内 积 的 形式 出 现 , 所 以 ,只 要 找到 合适 的 核 函 数 ,就 可 以 
完美 地 解决 SVM 中 非 线性 分 割 超 平面 的 问题 。 

综 上 所 述 , 在 SVM 中 , 核 函 数 是 为 了 解决 非 线 性 分 类 问题 同时 避免 直接 在 高 维 
空间 中 进行 复杂 计算 的 一 种 数学 工具 ,在 实际 使 用 的 时 候 只 要 用 合适 的 核 函数 替换 
原来 的 向 量 内 积 即 可 。 常 见 的 核 函数 有 和 多项式 核 函 数 、 高 斯 核 函 数 。 多 项 式 核 函 数 
为 : ACm yz ) 一 (1 十 zrz)2。 高 斯 核 函数 的 表达 式 为 : 


2 
TI 
k(xzi,x2) = exp(— Ts) 


其 中 ,a 越 大 , 则 高 次 特征 权重 下 降 越 快 。 如 果 o 过 大 ,高 次 特征 权重 过 低 , 则 近似 低 





维 子 空间 ; 如 果 o 过 小 , 则 可 映射 到 无 限 维 , 导 致 过 拟 合 问题 。 


2. Mercer 定理 


如 果 函 数 是 R"XR">R 上 的 映射 (也 就 是 从 两 个 维 向 量 映射 到 实数 域 ) , 那 
么 如 果 天 是 一 个 有 效 核 函 数 (也 称 为 Mercer 核 函数 ) , 当 且 仅 当 对 于 训练 样本 X 一 
{zisZT2 ,zm) ,其 相应 的 核 函数 矩阵 是 对 称 半 正 定 的 。 


3. Novikoff 定理 


原理 : 如 果 分 类 超 平面 存在 ， 仅 竺 在 序列 S 上 迁 代 几 次 ,在 界 为 (2 ) 的 错误 次 


数 下 就 可 以 找到 分 类 超 平面 ,算法 停止 。 其 中 R 一 maxi<<: | z; | ,7 为 扩充 间隔 。 根 
据 误 分 次 数 公式 可 知 ， 迭代 次 数 与 对 应 于 扩充 (包括 偏 置 ) 权 重 的 训练 集 的 间隔 

简单 地 说 ,Novikoff 定理 就 是 确保 SVM 算法 中 的 参数 经 过 有 限 次 的 近代 是 可 以 
收敛 的 ,可 以 找到 分 割 超 平面 而 不 至 于 无 穷 循 环 下 去 。 


@ 4.2 SVM 算法 实现 


本 节 展 示 了 算法 实现 的 流程 图 和 核心 类 。 如 图 4-7 所 示 , 是 算法 实现 的 流程 , 包 
合算 法 实现 的 类 和 函数 。 


4.2.1 简介 


代码 由 两 个 包 组 成 ,分 别 是 model 和 algorithm。 其 中 ,model 包 中 有 一 个 类 
SMOStruct. java, 它 是 用 来 存储 SMO 算法 运行 过 程 中 各 种 参数 .输入 .输出 和 中 间 值 
的 类 ; algorithm 包 中 有 一 个 类 SMO. java, 这 个 类 是 实际 的 SMO 代码 类 ,包括 前 面 
伪 代 码 中 的 SMO 主 函 数 ,内 循环 F(1) 函 数 以 及 其 他 的 辅助 函数 。 

类 名 称 及 其 描述 如 表 4-1 所 示 。 
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类 名 
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二 12 递 归 ! 
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表 4-1 类 名 称 及 其 描述 








类 名 称 类 描 述 
SMO 算法 运算 过 程 中 各 变量 的 存放 
private float[ ] W; // 分 割 超 平面 的 w 
private float[ ][ ] dataMatIn; // 存 放 所 有 输入 数据 属性 
private int[] labels; // 存 放 所 有 输入 数据 标签 
SMOStruct | 放生 下 站 相生 全 全 
private float b= 0; //SMO 中 的 b 
private int m; // 数 据 长 度 
private float[ ][ ] eCache; //E 的 缓存 
SMO 算法 的 执行 过 程 
public SMOStruct run(float[ ][ ] dataMatIn, int[] labels, 
SMOStruct smoStruct) //sM0 算法 过 程 
private float predictFunction(float[ ] Ws, float[] dataMat, 
float b) // 预 测 函 数 
private float[ ] calcWs(float[ ] alphas, float[ ][] dataMatIn, 
int[ ] labels) 1/ 计算 Ww 
private int update( int i, SMOStruct oS) // 如 果 上 对 有 改变 , 则 返 
// 回 1, 否 则 返回 0, 这样 便于 后 面 的 计数 . 对 已 经 选择 好 了 的 i 进行 更 
er // 新 ,这 里 要 用 一 种 启发 式 的 方法 选择 J, 即 select 函数 





private float innerProduct(float[ ] xi,float[ ] xj)// 求 向 量 内 积 
private void updateEk( SMOStruct optStruct, int k) // 更 新 E 
private float calcEk(SMOStruct optStruct, int k) // 计 算 第 k 个 X 
// 的 估计 值 ,也 就 是 计算 label(wX_k+b) 
private float kernel(float[] Xi,float[] Xj) 

// 核 函数 ,可 用 向 量 内 积 代 替 
private JAndEj selectJ(int i, SMOStruct optStruct,float Ei) 
//SMD 算法 中 选择 最 佳 的 重 的 启发 式 方法 , 即 选择 使 -Ej( 即 步 长 ) 最 
// 大 的 
Private int selectJrand( int i, intm) // 算 法 开始 ,随机 选择 J 
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4.2.2 核心 代码 


下 面 详细 介绍 SMO. java 类 中 重要 的 代码 。 
(1) SMO 算法 过 程 类 : run() 。 


1 


woJauaAwN 


i 
-Po 


25 


public SMOStruct run (float[ ] [ ] dataMatIn, int [ ] labels, SMOStruct 
smoStruct)//SMO 算法 过 程 
{ 
int m= dataMatIn. length; 
float[ ] alphas = newfloat[m]; 
float b=0; 
float[ ][] eCache = newfloat[m][2]; 
for(int i=0; i<m; i++){ 
alphas[i] = 0; 
eCache[i][0] =0; 
eCache[ i][1] =0; 


smoStruct. setDataMatIn( dataMat In); 
smoStruct. setLabels(labels); 
smoStruct. setB(b); 
smoStruct. setM(m); 
smoStruct. seteCache(eCache) ; 
smoStruct. setAlphas(alphas); 

// 以 上 完成 数据 的 加 载 ,初始 化 参数 


int 让 er =0; 
boolean isEntireSet = true; ”// 是 否 要 遍历 整个 数据 集 
int alphaPairsChanged = 0; ”// 运 行 之 后 改变 的 和 对 的 数量 


// 算 法 的 大 循环 ,循环 中 有 几 个 参数 ,iter 为 循环 的 最 大 次 数 ; 
//alphaPairsChanged 表示 每 一 次 循环 中 , 有 没有 里 对 的 改变 ,如 果 没 有 改变 说 明 
// 收 敛 ; 

// 由 于 在 算法 即将 收敛 的 时 候 , 非 支 持 向 量 和 outliner 的 日 值 大 多 已 经 确定 , 即 
// 为 0 或 c, 它们 的 值 很 可 能 不 会 再 变化 了 . 因此 ,不 必 每 次 都 改变 所 有 里 的 值 ， 
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// 而 是 在 一 定 情况 下 ,只 改变 那些 0 到 C 之 间 的 等 于 0 或 者 C 的 不 变 
//entireSet 即 是 表示 是 否 要 遍历 整个 数据 集 , 使 用 这 个 参数 是 为 了 加 快 迁 代 的 速 
// 度 ,其 唯一 不 同 在 于 寻找 里 的 方式 
//update 函数 的 作用 是 在 已 经 寻找 到 一 个 用 的 情况 下 ,找到 最 适合 的 时 更 新 
whilel( (iter < Configuration. MAXITER) 
&&( (alphaPairsChanged > 0) | (isEntireSet))){ 
alphaPairsChanged = 0;// 本 次 循环 改变 的 是 总 数 ,最 后 需要 用 这 个 值 来 
1/ 判断 是 否 下 次 要 遍历 整个 数据 集 
证 (isEntireSet){// 遍 历 整个 数据 集 
for(int i=0; i< smoStruct. getM(); i++) 
// 优 化 所 有 的 
alphaPairsChanged += update( i, sStruct); 
jelse{ // 只 遍历 一 部 分 在 0 到 C 之 间 的 上 
// 使 用 countNoBounds 参数 来 表示 0 到 C 之 间 的 里 的 个 数 
int countNoBounds = 0; 
for(int i=0; i< smoStruct. getM(); i++) 
if( (smoStruct. getAlphas()[i]>0) 
&&(smoStruct. getAlphas()[i]< Configuration.C)) 


//0<Mi<c 

countNoBounds++; 
int[ ] noBoundAlphas = new int[ countNoBounds]; 
int x= 0; 


for(int i=0; i< smoStruct. getM(); i++){ 
if( (smoStruct. getAlphas()[i]>0) 
&&(smoStruct. getAlphas()[i]< Configuration. C)) 
noBoundAlphas[x++] = i;// 将 那些 满足 条 件 的 的 下 标 存 
// 到 noBoundAlphas 数组 中 


for(int i=0; i< countNoBounds; i++){ 

// 把 大 于 0 小 于 Cc 的 和 取出 来 优化 ,并 记录 下 变化 了 的 里 总 数 
alphaPairsChanged += update( noBoundAlphas[i], smoStruct); 

}// 对 那些 满足 条 件 的 和 进行 处 理 


iter++; 
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if(isEntireSet){// 如 果 这 次 遍历 的 所 有 和 则 下 次 就 只 遍历 0 到 C 之 间 的 

isEntireSet = false;// 如 果 这 次 访问 的 是 整个 数据 集 , 下 次 就 只 访 
// 问 非 边界 数据 ,这 样 可 以 提高 速度 

1 

if(alphapairsChanged == 0){ 
isEntireSet = true;// 如 果 这 次 访问 的 是 非 边界 数据 并 且 没有 是 对 

// 的 改变 ,那么 下 次 就 访问 整个 数据 集 
| 
1 


float[ ] W= calcWs(sStruct. getAlphas(), smoStruct. getDataMatIn(), smoStruct. 
getLabels()); 

SmoStruct. setW(W); 
return smoStruct; 


(2) 预测 函数 predictFunction, 给 定 wb 和 输入 数据 ,预测 其 label。 


waoumwnb pr 


private float predictFunction(float[ ] Ws,float[ ] dataMat, float b) 
上 
float predict = 0; 
for(int i=0; i<Ws.length; i++) 
predict += Ws[i] * dataMat[i]; 

predict += b; 
return predict; 
1 


(3) 根据 更 新 之 后 的 alpha 数据 矩阵 和 label 得 到 分 割 超 平面 的 函数 。 


人 w Nb 


private float[ ] calcWs(float[] alphas,float[ ][] dataMatIn, int[] labels){ 
int m= dataMatIn. length; // 行 数 

int n= dataMatIn[0]. length;  // 列 数 

float[ ] w= newfloat[n]; 
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for(int i=0; i<m; i++){ 

if(alphas[i]!'= 0) 

for(int j=0; j<n; j++){ 

// 由 于 大 部 分 里 的 值 为 0, 而 非 0 的 里 对 应 支持 向 量 ,所 以 起 作用 的 只 有 支持 向 量 
w[j] +=alphas[i] * labels[i] * dataMatIn[i][j]; 


return w; 


(4) Update 函数 ,用 于 每 一 次 更 新 的 内 循环 。 


private int update(int i, SMOStruct smoStruct){ 
float c = Conf iguration. C; 

float Ei= calcEk( smoStruct, i); 

float DL=0; 

float H=0; 

float eta = 0;//H,L, eta 都 是 后 面 要 用 到 的 局 部 变量 


if((smoStruct. getLabels()[i]* Ei<0) 

&&( smoStruct. getAlphas()[i]< Configuration. C) 

|| ((smoStruct. getLabels()[i]* Ei>0)&&(smoStruct.getAlphas()[i]>0))){ 
// 这 里 是 alpha 不 满足 KKT 条 件 的 情况 , 即 需要 进行 优化 的 情况 

// 引 入 toler 参数 是 因为 计算 过 程 中 因为 除 不 尽 ,无 法 得 到 精确 相等 值 , 可 以 这 样 
// 理 解 : 

// 原 始 KKT 条 件 : 

//Ni=0<=>yixui>=1 

//0<Wi<C<=>yixui=1 

//Mi=C<=>yixui<=1 

// 即 : 

//Mi<C<=> yixui>=1 

//Ni>0<=>yixui<=1 

// 道 命题 即 : 

//Mi<C<=> yixui<l 

//Mi>0<=>yixui>1 
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HashMap <String, Object > jEj = selectJ(i, smoStruct, Ei);// 用 一 个 类 把 j 
// 和 了 瑟 都 传 过 来 

int j= (Integer) jEj. get("J"); 

float Ej = (Float) jEj.get("Ej"); 

float alphaIold = smoStruct. getAlphas()[i]; 

float alphaJold= smoStruct. getAlphas()[j]; 


if(smoStruct. getLabels()[i]!= smoStruct.getLabels()[j])// 确 定 D 和 H 
{ 
L= Math. max(0, smoStruct. getAlphas()[j] - smoStruct. getAlphas()[i]); 
H= Math .min(c，c+ smoStruct. getAlphas()[j]— smoStruct. getAlphas( )[i]); 
Jelse{ 
L= Math. max(0, smoStruct.getAlphas()[j] + smoStruct.getAlphas()[i] —c); 
H= Math. min(¢, smoStruct. getAlphas()[j] + smoStruct.getAlphas()[i]); 


if(L >=H){ 
//Low >= High 是 不 会 出 现 的 情况 ,如 果 出 现 说 明 不 能 更 新 ; 
return 0; 


} 


float xij = kernel( smoStruct. getDataMatIn()[i], smoStruct. getDataMatIn()[j]); 

float xii = kernel( smoStruct. getDataMatIn()[i], smoStruct. getDataMatIn()[i]); 

float xjj = kernel( smoStruct. getDataMatIn()[j]，smoStruct. getDataMatIn()[j]); 
eta=2x xij — xii - xjj; 

if(eta>=0){ 

//eta >=0 是 错误 情况 ; 

return 0; 

. 

// 如 果 程 序 运行 到 现在 还 没有 返回 false, 说 明 应 该 对 及 和 上 叶 进行 修改 
smoStruct.getAlphas()[j] —= smoStruct. getLabels()[j] * (Ei — Ej)/ eta; 


53 smoStruct. getAlphas()[j] = choosehlpha( smoStruct. gethlphas()[j]，H，D) ; 
54 updateEk( smoStruct, j);// 更 新 了 j, 并 将 了 标记 为 有 效 
55 


56 if (Math. abs ( smoStruct. getAlphas ( ) [j] - smoStruct. getAlphas ( ) [i])< 
Configuration. TOLER){ 
57 。”// 因 为 这 里 是 需要 对 有 效 的 旦 对 改变 进行 计数 ,如 果 j 改变 得 不 明显 , 则 视 为 是 没 


// 有 改变 
58 ”return 0;// 否 则 用 也 没有 必要 改变 了 
539 下 
60 smoStruct. getAlphas()[i] += smoStruct. getLabels()[j] * smoStruct 
.getLabels()[i] 
61 *(alphaJjold - smoStruct.getAlphas()[j]); 
62 updateEk( smoStruct, i); 
63 
64 ”// 对 b 的 更 新 


65 float bl = smoStruct.getB()—Ei - smoStruct.getLabels()[i] 

66 *(smoStruct.getAlphas()[i] -alphaJold) 

67 x* kernel(smoStruct.getDataMatIn()[i], smoStruct.getDataMatIn()[i]) 
68 -smoStruct.getLabels()[j]* (smoStruct.getAlphas()[j] -alphaJold) 
69 x kernel(smoStruct.getDataMatIn()[i], smoStruct. getDataMatIn()[j]); 
70 float b2= smoStruct.getB()— Ej - smoStruct.getLabels()[i] 

71  *(smoStruct.getAlphas()[i] -alphalold) 

72 x* kernel(smoStruct.getDataMatIn()[i], smoStruct.getDataMatIn()[j]) 
73 -smoStruct.getLabels()[j]* (smoStruct.getAlphas()[j] -alphaJold) 
74 * kernel(smoStruct.getDataMatIn()[j], smoStruct.getDataMatIn()[j]); 
75 if((smoStruct.getAlphas()[i]>0)&&(smoStruct.getAlphas()[i]<c)) 


76 smoStruct. setB(b1); 

77 elseif((smoStruct.getAlphas()[j]> 0)&&(smoStruct. getAlphas()[j]<c)) 
78 smoStruct. setB(b2); 

79 else 

80 smoStruct. setB( (float) ( (bl + b2)/2.0)); 


81 ”return 1;// 修 改 成 功 ,改变 的 和 对 的 计数 加 1 
82 Jelse{ 





(5) 计算 两 个 向 量 的 内 积 : innerProduct。 





(6) 计算 第 4 个 X 的 估计 值 : clacEk。 
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(7) 更 新 缓存 中 的 Ek。 





(8) 核 函 数 。 





(9) 根据 i 选择 j 的 函数 。 
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//eCache[0]:1 表示 有 意义 ,0 表示 无 意义 
//eCache[1] :下 的 值 

smoStruct. geteCache( )[i][0] =1; 
smoStruct. geteCache( )[i][1] = Ei; 


int countValidEcacheList = 0;// 记 录 已 经 初始 化 了 的 e。 的 个 数 
for(int 1 =0; 1 < smoStruct. getM(); 1++){ 
if(smoStruct. geteCache()[1][0] ==1) 
countValidEcacheList +=1; 

1 
证 (countValidEcacheList <= 1){// 如 果 是 第 一 次 选择 j: 
int j; 
//j= selectJRand(i, smoStruct. getM()); 
// 注 意 : 不 同 数 据 集 对 第 一 个 j 的 敏感 程度 不 同 , 有 的 任意 取 一 个 就 好 , 有 的 需要 
// 选 择 特定 的 j 本 数据 集 从 第 48 个 数据 开始 效果 最 佳 

j= selectJRand( i, smoStruct. getM()); 

Ej= calcEk( smoStruct, j); 

result. put ("Ej", Ej); 

result. put("J", j); 

System. out. println(" 选 的 第 一 个 j 是 " + j); 
return result; 
1 
int[ ] validEcacheList = newint[countValidEcacheList];// 存 放 那 些 有 用 的 
//eCache 的 下 标 
int x=0; 
for(int ] =0; 1 < smoStruct. getM(); 1++){ 
if(smoStruct. geteCache( )[1][0] ==1){ 

validEcacheList[x] = 1; 


XH+ > 


for(int 1 =0; 1 < countValidEcacheList; 1++){ 
if(validEcacheList[1] == i){ 


continue; 
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(10) 随机 选择 一 个 j。 





(11) 将 alpha 控制 在 合理 的 范围 。 
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@ 4.3 实验 数据 


实验 数据 来 自 ( 机 器 学 习 实 战 ) 一 书 ,CSDN 上 可 以 下 载 全 部 数据 ,我 们 只 针对 
SVM 实验 整理 了 一 份 数据 ,由 100 条 二 维 数据 组 成 ,就 放 在 本 书 SVM 源码 工程 的 
data 文件 夹 下 ,也 可 单独 下 载 : http://pan. baidu. com/s/1o8hY7ay。 


全 4.4 实验 结果 


4.4.1 结果 展示 


如 图 4-8 所 示 为 使 用 实验 数据 所 得 的 结果 。 其 中 , 〇 和 XX 分 别 表示 两 种 不 同 的 
分 类 ,中 间 的 直线 为 通过 SMO 算法 得 到 的 分 割 超 平面 。 


4.4.2 结果 分 析 


在 实验 中 ,用 测试 集 测试 的 准确 率 并 不 总 是 十 分 理想 ,这 是 因为 SMO 算法 对 首 
次 选择 的 a; 特别 敏感 。 在 本 章 所 使 用 的 数据 集中 ,经 测试 ,在 训练 集中 选择 第 48 个 
数据 作为 人 口 ( 即 令 j 二 48) 得 到 的 效果 最 佳 。 

实验 证 明 以 SVM 思想 为 基础 的 SMO 算法 在 针对 线性 可 分 的 数据 集 分 类 方面 
有 良好 的 表现 ,得 到 的 分 割 超 平面 能 够 很 好 地 代表 决策 边界 。 

SVM 提供 了 一 种 在 低 维 空间 进行 等 价 高 维 运算 的 求解 方法 。 另 外 ,SVM 的 结 
果 简 单 .推导 严谨 、 优 化 算法 SMO 的 收敛 性 得 到 了 证 明 , 使 它 成 为 经 典 机 器 学 习 算法 

















图 4-8 实验 结果 


中 最 重要 的 一 个 。 但 是 ,线性 核 函 数 与 非 线 性 核 函数 的 时 间 复 杂 度 差距 较 大 ,在 无 法 
实现 数据 可 视 化 的 情况 下 核 函 数 的 选择 还 没有 确定 的 方法 。 另 外 ,与 朴素 贝 叶 斯 等 
分 类 算法 比 起 来 ,SMO 算法 的 训练 阶段 的 时 间 复 杂 度 较 高 。 





AdaBoost 


@ 5.1 AdaBoost 算法 原理 


对 于 分 类 问题 ,如 果 任 意 一 个 分 类 器 解决 不 了 问题 , 那 就 多 个 分 类 器 都 试 试 。 分 
类 器 一 多 ,怎么 整理 结果 ? 走 类 似 参数 拟 合 的 路 线 , 用 权重 来 平衡 不 同 分 类 器 ,用 误 
差 函 数 来 帮助 回归 ,简单 明了 一 一 AdaBoost。 


5.1.1 算法 引入 


在 进行 数据 分 析 时 ,如 何 探索 出 性 能 优良 的 分 类 器 一 直 是 科学 家 执着 的 追求 。 
通常 情况 下 想 要 找到 一 个 强 分 类 器 总 是 比较 困难 的 ,但 想 要 获得 一 个 弱 分 类 器 却 相 
对 容易 。 因 此 ,我们 提出 这 样 一 个 问题 ,能 和 否 通过 这 些 容易 实现 的 弱 分 类 器 ,经 过 一 
定 组 合 后 构建 一 个 强 分 类 器 ? AdaBoost 算法 即 可 解决 该 问题 。AdaBoost 属于 
Boosting 的 一 种 算法 ,具有 “ 自 适应 ”功能 。 该 算法 通过 不 断 迭 代 并 根据 每 次 迭代 的 
误差 率 赋予 当前 基础 分 类 器 权重 ,同时 ,自动 调整 样本 权重 ,最 后 把 所 有 的 分 类 器 通 
过 线性 整合 ,形成 一 个 性 能 优良 的 强 分 类 器 。AdaBoost 提供 一 种 框架 ,该 框架 可 以 
将 各 种 弱 分 类 器 组 合 起 来 ,并 且 该 算法 相对 简单 ,不 需要 进行 特征 的 筛选 ,很 难 出 现 
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图 5-1 AdaBoost 框架 图 


5.1.2 科学 问题 


1. 相关 定义 


首先 定义 以 下 几 个 基本 概念 。 
定义 1: 基础 分 类 器 五 (z) 
AdaBoost 只 是 提供 了 一 种 用 于 将 弱 分 类 器 通过 线性 整合 ,以 获得 强 分 类 器 的 杠 


架 。 具 体 的 基础 分 类 器 可 以 是 任意 分 类 器 ,在 分 类 时 其 误差 率 应 满足 0<-e 一 工 。 


2 
定义 2: 误差 率 e, 
误差 率 主要 是 用 来 衡量 基础 分 类 器 在 此 次 分 类 中 的 加 权 错误 率 , 每 次 选择 误差 
率 最 低 的 分 类 器 加 入 到 最 终 线性 分 类 器 。 


定义 3: 分 类 器 权重 a 

AdaBoost 通过 线性 加 和 的 方式 得 到 最 终 分 类 器 ,a, 表示 每 一 个 基础 分 类 器 在 最 
终 分 类 器 中 的 权 值 ,数字 + 表示 第 t 轮 迭 代 次 数 。 

定义 4: 样本 权重 ww 二 (wwws，… ,un) ,NN 表示 样本 总 数 

AdaBoost 每 一 次 迭代 都 会 更 新 样本 集合 D 的 权重 ,w 代表 的 是 第 t 一 1 次 迭代 
后 所 计算 出 的 样本 权重 。 


2. 问题 定义 


在 给 定数 据 集 D={(zm ,mm),(z,ym),…,Czvyyvw)} 以 及 基础 分 类 器 互 (z) 的 情 
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况 下 ,AdaBoost 算法 拟 解决 以 下 问题 。 
(1) 如 何 衡量 分 类 器 在 H,(z) 每 一 轮 迭 代 中 的 权重 a.? 其 中 ,二 {1,2,…, 了 T} 表 


示 远 代 次 数 。AdaBoost 算法 通过 计算 误差 率 s ,并 通过 公式 w 一 二 log -所 计算 每 


一 轮 的 权重 。 
(2) 如 何在 迭代 过 程 中 更 新 样本 集 的 权重 ? 为 了 使 得 每 次 迭代 后 的 弱 分 类 器 更 


精确 ,并 且 使 之 前 误 分 类 样本 在 下 轮 迭 代 中 所 占 比 重 更 大 ,因此 AdaBoost 算法 根据 
分 类 器 分 类 结果 对 样本 的 权重 进行 更 新 , 权重 更 新 公式 为 wt,i 一 pa 


exp(—ayiH,(zxi))。 


5.1.3 算法 流程 


1. 算法 步骤 
(1) 对 给 定 的 二 分 类 数据 集 卫 = { (zi ,yn ),(zma, 罗 )，sCzwyyw))，CzEX,yE 
Y ,首先 初始 化 每 个 样本 的 权重 ws 一 [ 


量 , 所 有 样本 在 初始 阶段 同等 重要 。 

(2) AdaBoost 算法 通过 多 次 迭代 生成 多 个 基础 分 类 器 ,在 每 次 近代 过 程 中 以 最 
小 误差 率 e 选择 当前 最 优 的 基础 分 类 器 ,误差 率 越 小 表示 基础 分 类 器 对 数据 样本 预 
测 结果 越 准确 ,计算 误差 率 s 的 公式 为 


直 南 六] G=12ND)N 是 样本 数 


N 
@ = Duil(H(zi) #3) (5-1) 
各 


(3) AdaBoost 算法 采用 “加 权 多 数 表决 ?方法 组 合 多 个 基础 分 类 器 。 算 法 根据 误 
差 率 &, 为 基础 分 类 器 吾 ,(z) 赋 予 权重 a ,误差 率 越 小 则 分 类 器 权重 越 大 , 即 该 基础 分 
类 器 在 最 终 分 类 器 中 作用 越 大 ,计算 分 类 器 的 权重 w 的 公式 为 : 

wa: 一 Foes (5-2) 


Et 


(4) AdaBoost 算法 在 生成 下 一 个 基础 分 类 器 之 前 将 放大 误 分 类 样本 权重 并 缩小 





正确 分 类 样本 权重 ,这 使 得 下 一 轮 迭 代 更 关注 误 分 类 样本 ,以 期 待 在 下 次 生成 基础 分 
类 器 过 程 中 正确 分 类 误 分 类 样本 ,样本 权重 更 新 公式 为 : 


Uni 一 区 exp( 一 ao,(zD)， (一 1,2,…,N) (5-3) 
， 


式 中 1 二 1,2,…,T,Z, 是 规 一 化 因子 ,Z, 计算 公式 如 下 所 示 : 
Z,= 3 (5-4) 
(5) 若 多 个 基础 分 类 器 经 线性 组 合 后 能 全 部 准确 预测 数据 样本 类 别 或 者 迭代 次 
数 超过 预定 义 次 数 ,迭代 终止 并 形成 最 终 线性 分 类 器 : 
f(z) = DaH(z) (5-5) 
(6) 最 开始 提出 的 AdaBoost 算法 用 于 解决 二 分 类 问题 , f(z) 经 二 值 化 后 得 到 最 
终 分 类 器 ,形式 化 如 下 : 


ee 
H(z) = sign(f(2))= sign( DaH,(z)) (5-6) 
t=1 
2. AdaBoost 理论 推导 


AdaBoost 是 一 个 线性 整合 模型 中 ,我 们 假设 前 :一 1 轮 迭 代 所 产生 的 分 类 器 已 
知 , 即 ; 
fulz) = for(z) an Haz) =aH(z)++an H(z) (5-7) 
下 一 轮 迭 代目 标 是 为 了 生成 在 当前 数据 样本 权重 下 损失 函数 最 小 的 基础 分 类 器 ， 
AdaBoost 损失 函数 为 指数 函数 外, 即 : 


y 
(a H,(7x))= arg min Dyexp[— YCfrlzi) taH, (zi))] (5-8) 
-Hisl 
式 (5-8) 又 可 以 表示 为 : 
N 
(a Hi(2)) = arg min >) Wiexp[— yaH(z:)] (5-9) 
“fH i=1 


其 中 ,通过 公式 (5-3) 可 得 到 wi 二 exp[ 一 yf (zi)], 此 时 可 以 看 出 wi 与 所 要 求 的 损 
失 函 数 没有 依赖 ,与 式 (5-9) 的 最 小 化 过 程 没 有 关系 。 因 此 式 (5-9) 的 求解 分 为 以 下 
两 步 。 

第 一 步 ,求解 最 优 的 分 类 器 Hi (zi) ,对 任意 的 >0, 对 公式 (5-9) 求 解 最 小 值 ， 
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AN 
Hi (2:) = arg min2, usl (yi H(zi)) (5-10) 
损失 函数 (5-9) 可 表示 为 


> ) iexp[— yaH,(zi)] 


N N 


> uiexp[—alt iexp[a] 
y=H,(r) FH,r) 
y 内 
= (e 一 e) Duly Hz))t+e > 和， (5-11) 
1=1 i=1 


将 之 前 所 求 的 Hi (zi) 带 入 到 式 (5-11) 中 ,对 a 求 偏 导 并 使 偏 导 为 0, 可 得 到 此 时 a 
的 求解 公式 (5-2)。 其 中 ,e, 是 分 类 器 的 误差 率 ,此 时 6, 的 表示 形式 如 下 : 


和 
BD iiisl yA H(z)) 





和 = 





+ = > il (y; A H(z)) (5-12) 
第 二 步 , 对 于 每 一 轮 的 权 值 更 新 ,由 f(x)= f(z)+aH,(z) 且 w= 

exp[ 一 yifi-1(Zzi)] 可 得 权 值 更 新 公式 : 
Upsi = Uiexp(— oyiH (x)), (i= 1,2,.,N) 《5-13) 


5.1.4 算法 描述 


下 面 给 出 AdaBoost 算法 的 伪 代 码 。 


算法 5-1 AdaBoost 算法 。 


输入 : 训练 数据 集 D={(z yy), (zym)，…Czvyyw)) CrzEX,yEY) ,以 及 基 
础 分 类 器 HH,(z;) ,最 低 错 误 率 &; 


Ly 初始 化 样本 数据 集权 值 w= [高 , 识 …, 襄 ] (1,2) 





2: fort=1,2,.…,T do 
3: ”寻找 当前 权重 下 误差 率 最 小 的 分 类 器 ,误差 率 & 通过 公式 (5-1) 计 算 
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得 出 ; 
4: if e,>0.5 
5: continue; 
6: else 
7: 通过 误差 率 6, 计算 出 该 分 类 器 的 权重 ,权重 通过 公式 (5-2) 计 算 
得 出 ; 


8 通过 公式 (5-3) 和 上 一 轮 样本 的 权重 w_1, 更 新 当前 样本 集权 重 ; 
9: 计算 当前 分 类 器 f(z) 一 2JaH,(z) 的 错误 率 6; 


10; if e<é then 

A 返回 当前 分 类 器 f(x); 
12; break; 

13: end if 

14: end 论 

15: end for 


16: 输出 最 终 的 分 类 f(x) = DaH,(z) ; 


5.1.5 补充 说 明 


1. 基础 分 类 器 的 误差 率 应 该 小 于 0.5 


AdaBoost 在 选择 基础 分 类 器 时 ,需要 注意 到 基础 分 类 器 的 误差 率 应 小 于 0. 5。 
这 一 点 通过 权重 迭代 公式 (5-2) 可 以 看 出 , 当 分 类 器 的 误差 率 为 0.5 时 ,分 类 器 的 权 
重 为 0。 这 与 我 们 的 日 常 感知 也 是 趋 于 一 致 的 ,因为 当 一 个 分 类 器 的 误差 率 为 0.5 
时 ,相当 于 随机 猜测 的 效果 ,也 就 是 该 分 类 器 在 此 次 分 类 过 程 中 不 起 作用 。 因 此 在 最 
终 得 到 的 线性 分 类 器 六 (z) 里 ,该 分 类 器 权重 为 0。 同样 , 当 基础 分 类 器 的 误差 率 接 
近 零 时 ,该 分 类 器 经 过 f.(z) 计 算 权重 变 得 很 大 , 即 该 分 类 器 在 全 部 分 类 器 中 所 占 比 
重大 。 
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2. AdaBoost 算法 误差 分 析 


本 小 节 将 对 AdaBoost 算法 误差 进行 分 析 , 首 先 给 出 该 算法 误差 分 析 的 结论 : 








HO HD #9) {exp yx 71620))= [2, 


权 值 更 新 的 式 (5-3) 可 以 转换 为 如 下 形式 : 
Uiexp(— ayiH (zi)) = Zum,i (5-14) 
又 因为 当日 ,(z) 关 yi; 时 ,y;X f(z;) 二 0, 因 此 得 出 exp( 一 y;Xf(zi)) 宇 1, 此 时 


N 


{exp( 一 y;X 了 (xi))) 成 立 。 
< 








N 
另外 ,对 于 十 六 (exp( 一 wx f(z)))= [2z，， 由 式 (5- 人 可 得 出 : 
所 
AN 
ND {ep xf(z))}= Ye- Dasl, (zi)) 
= De J ayiH (zx;)) 
t=] 


= 及 Si | 
iml t=2 


N Tr 
= QZ: > Tl exp— awyiH.,(xi)) 
tl “2 


和 
= [Iz (5-15) 


由 此 ,通过 式 (5-15) 可 以 看 出 ,在 每 轮 迭 代 过 程 中 ,只 需要 满足 训练 得 到 的 分 类 
器 使 得 归 一 化 因子 Z, 最 小 , 便 可 以 进一步 降低 训练 误差 。 由 公式 (5-3) 可 得 到 : 


N 
ZZ= p> Wiexp(— ayiH,(z;)) 


N N 
= Miexp (一 an ) 十 ye Uiexp(a) 
y=H,(r) yA#H,(r) 


= (1 一 si)exp( 一 om) 十 eexp(an) 








把 公式 (5-2)c, 一 二 log 一带 和 上 式 中 ， 可 以 得 到 2 VS sy = 二 Vi 一 4 。 在 


ed er 和 Viz 展开 ,所 展开 的 泰勒 公 式 如 下 








所 示 : 
f(z) {fm z+ LE (XT 一 To) 十 … 十 
TP G0)" + R(x) (5-16) 
这 里 只 展示 三 阶 的 泰 勤 展开 式 , 分 别 得 到 er 和 V1 一 x : 
er 一 1 十 z 十 二 + 十 R(x) (5-17) 
Vl—z= 1 一 + 一 上 一 证 十 R(x) (5-18) 


可 以 看 出 当 V1 一 + 二 e”, 同 理 可 得 V1 一 4r 全 exp( 一 27) ,如果 存在 r0, 对 于 
所 有 的 :有 rx, 之 r 成 立 ,因此 可 以 得 到 : 


N 
NIG #2) exp(—21r’) (5-19) 
i=1 


综 上 ,AdaBoost 算法 在 迭代 的 过 程 中 ,其 误差 率 以 指数 速率 下 降 。 


人 @ 5.2 AdaBoost 算法 实现 


本 节 展 示 了 算法 实现 的 流程 图 和 核心 类 。 如 图 5-2 所 示 , 是 算法 实现 的 流程 , 包 
含 算法 实现 的 类 和 函数 。 


5.2.1 简介 


AdaBoost 算法 实现 采用 Java 语言 ,主要 分 为 如 表 5-1 所 示 的 几 个 类 。 
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| (MainClass FileOperate DataUtil AdaBoost 人 了 
入 品类 /人 文人 操作 类 /| 数据 工具 类 /人 算法 类 /| 人 spa 
main _1| ,loadData _2| divideTmainAnd 
人口 函 数 谈 取 数 据 TestData 初始 化 
划分 训练 集 和 
测试 集 
上 
initWeightArray 
初 数 据 笠 本 i 
权重 | 。 | constructDecisionl 
,le ee 
构建 基础 分 类 器 ， | 
也 击 谈 getFrstLableArray 6 1 ; 
本 | Se 获取 训 红 数据 的 全 -| 
预测 结果 | 
17 人 
pda a | 
updateDataWeight | 
更 新 所 样本 权重 | ------ 过 代 ., 
test 
试 结果 
Te 测 结 呆 | 一 办 助 损 作 上 测 试 
| ~- 核心 包 法 
图 5-2 算法 设计 流程 图 
表 5-1 类 名 称 及 其 描述 
类 名 称 类 描 述 
(抽象 类 , 供 具 体 数据 Model 类 继承 ,提供 一 个 getFeatures() 抽 象 方法 , 继 
承 该 类 的 子 类 需 重 写 该 方法 并 返回 数据 属性 集合 ) 
Node 方法 : 
public abstract String[ ] getFeatures(); 
时 (具体 数据 Model 类 Iris, 继 承 抽象 类 Node) 
TIS 


成 员 变量 : 
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续 表 
类 名 称 类 描 述 
private double sepalLength; // 花 莹 长 度 
private double sepalWidth; // 花 葛 宽 度 
private double petalLength; // 花 办 长 度 
private double petalWidth; // 花 辩 宽度 
is private int label; // 类 别 标签 
// 特 征 键 集 


private String[ ] features = new String[ ]{" sepalLength", "sepalWidth", 
"petalLength", "petalWidth"}; 





SimpleDataSet 


(具体 数据 Model 类 SimpleDataSet, 继 承 抽象 类 Node) 


成 员 变量 : 

private double xAis; //x 轴 
private double yAis; //Y 轴 
private int label; // 类 别 标签 
// 特 征 键 集 


private String[ ] features = new String[ ]{"xAis", "yAis"}; 





AdaBoost 





(AdaBoost 算法 核心 类 ,实现 分 类 器 构建 ,误差 率 计算 .数据 样本 更 新 以 及 


预测 结果 获取 ) 

成 员 变量 : 

private double[ ][] trainDataArray; // 训 练 数据 集 
private double[ ][ ] testDataArray; // 测 试 数据 集 
private int[ ] trainLabelArray; // 训 练 标签 集 
private double[ ] weightArray; // 样 本 权重 集 
函数 : 


/*x 构建 多 个 基础 分 类 器 的 组 合 * / 
public List<DecisionStump > constructClassfier(); 
/*x 计算 当前 所 选 特征 下 的 误差 率 */ 
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类 名 称 类 描 述 


public double getError (double[ ] tmpArray, double threshold, int 
ltLabel, int gtLabel); 

/xx* 更 新 每 个 数据 样本 的 权重 * / 

public double[ ] updateWeight(DecisionStump ds); 

AdaBoost “| /xx* 综合 每 次 所 得 到 的 分 类 器 , 带 入 原始 数据 计算 最 终 预测 结果 * / 
public int [ ] getFrstLableArray (List < DecisionStump > dsList, int 
dataFlag); 

/x* 测试 分 类 器 * / 

public int[ ] test(List<DecisionStump > dsList，int[ ] testLabelArray); 








(实现 基础 分 类 器 之 一 一 一 决策 树桩 的 构建 ,打印 全 部 的 决策 树桩 ) 

函数 : 

/xx 构建 当 次 决策 树桩 * / 

DecisionStump | publ ic DecisionStump constructDecisionStump(AdaBoost adaBoost, double 
Classfier [][] trainDataArray); 

/x* 打印 全 部 的 决策 树桩 * / 

public void printDecisionStump ( List < DecisionStump > dsList, 

DataModel curDataModel); 





(决策 树桩 的 Model 实体 类 ) 


成 员 变 量 : 

private int featureIndex; // 所 选 特征 
DecisionStump | private double threshold; // 阅 值 

private int ltLabel; // 小 于 阔 值 的 分 类 

private int gtLabel; // 大 于 阔 值 的 分 类 


private double alphaWeight; // 当 前 分 类 器 权重 





(有 关 数 据 的 工具 类 ,在 这 里 实现 了 : 从 全 部 数据 中 取出 不 含 类 别 标签 
的 数据 集 和 从 类 别 标签 集 ; @ 根 据 随机 数 从 原始 数据 中 划分 训练 数据 、 测 
试 数据 、 训 练 标签 和 测试 标签 ; @ 初 始 化 数据 样本 权重 ) 

函数 : 


DataUtil 
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续 表 





类 描 述 





DataUtil 


/** 从 全 部 数据 中 取出 不 含 类 别 标签 的 数据 集 * / 

public static double[ ] [ ] getDataArray (List <List < String >> datas, 
int dataCount, int featureCount); 

/** 从 全 部 数据 中 取出 类 别 标签 集 * / 

public static int[ ] getLabelarray(List < List < String >> datas, int 
dataCount, int labelColIndex); 

/x*# 初始 化 训练 数据 样本 权重 * / 

public static double[ ] initWeightArray(int[ ] trainDataCount) ; 





Algorithm Util 


(有 关 算 法 的 工具 类 ,在 这 里 实现 了 数值 型 数组 最 大 值 .最 小 值 的 获取 、 数 
组 转 置 以 及 随机 数 的 获取 ) 

函数 : 

/** 获取 一 个 数值 型 数组 的 最 大 值 * / 

public static double getMax(double[] array); 

/xx 获取 一 个 数值 型 数组 的 最 小 值 x / 

public static double getMin(double[ ] array); 

/xx 数组 转 置 * / 

public static double[ ][ ] getTransArray(double[ ][ ] array); 





Configuration 





(配置 类 ,包括 读 写 数据 路 径 和 算法 所 需 参数 的 配置 ) 
属性 : 
/xx 

* 读数 据 的 路 径 

*/ 
public static final String DATA PATH = "data/iris. txt"; 
/x¥ 

* 写 数 据 的 路 径 

*/ 
public static final String RESULT PATH = "data/result. txt"; 
/xx 
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类 描 述 





Configuration 


* 数据 样本 类 别 标签 所 在 的 列 号 
于 static final int LNBEL INDEX= 5; 
/ xx 
* 所 选 数据 样本 开始 的 编号 
有 static final int BEGIN= 1; 
i * 所 选 数据 样本 结束 的 编号 
本 static final int END=100; 
| * 算法 最 大 迭代 次 数 
static final int ITER=500; 
1 * 训练 数据 样本 占 全 部 样本 的 比例 ,范围 : 0.5<percent<0.9 
村 static final double PERCENT = 0.9; 
| * 实例 化 数据 实体 类 
请 static final Node NODEMODEL = new Iris( ) ; 





MainClass 





(AdaBoost 算法 入 口 类 ,程序 从 这 里 开始 ) 
函数 : 


public static void main(String[ ] args) 


5.2.2 核心 代码 


我 们 根据 算法 的 思想 与 流程 给 出 其 核心 代码 ,包括 Main 类 、AdaBoost 类 和 
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DecisionStumpClassfier 类 的 详细 代码 和 解释 说 明 , 这 里 选 的 基本 分 类 器 为 决策 树桩 。 


1. MainClass 类 


(1) 首先 获取 原始 数据 并 划分 训练 集 和 测试 集 。 


LL long beginTime = System. currentTimeMillis(); 


//stepl 获取 原始 数据 并 划分 训练 集 和 测试 集 

// 获 取 原 始 数据 

List <List < String >> datas = FileOperate. loadData( Conf iguration. DATA_PATH, 

"[\tI\\s+]"); 

6 。// 划 分 训练 集 和 测试 集 

Map < String, Object > dataAndLabelMap = DataUtil. divideTrainAndTestData 
(datas, Configuration. BEGIN, Configuration. END, Configuration. PERCENT) ; 

8 double[ ][] trainDataArray = (double[ ][]) dataAndLabelMap. get ("trainData" ); 

9 double[ ][] testDataArray= (double[ ][ ]) dataAndLabelMap. get ("testData" ); 

10 int[] trainLabelArray = (int[]) datahndLabelMap.get("trainLabel") 

11 int[] testLabelArray= (int[]) dataAndLabelMap. get("testLabel"); 


wm mw ND 


(2) 初始 化 训练 数据 样本 权重 。 


1 ”//step2 初始 化 训练 数据 样本 权重 
到 int trainDataCount = trainLabelRrray. length; 
3 double[ ] weightArray = DataUtil. initWeighthrray(trainDataCount) ; 


(3) 核心 步骤 ,构建 多 个 分 类 器 。 


1 ”//step3 核心 步骤 ,构建 多 个 基础 分 类 器 的 组 合 

2 RdaBoost adaBoost = new AdaBoost ( trainDataArray, testDataArray, 
trainLabelArray, weightArray); 

3 List <DecisionStump> dsList = adaBoost. constructClassfier( ); 
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(4) 把 测试 数据 带 入 最终 分 类 器 ,得 到 预测 标签 集 并 统计 正确 与 错误 数 。 


au mw nb 


//step4 测试 

int[ ] result = adaBoost. test(dsList, testLabelArray); 
int rightCount = result[0]; 

int errorCount = result[1]; 


long endTime = System. current TimeMillis(); 


(5) 把 结果 输出 到 文件 。 


1 
2 


//step5 打印 输出 最 终 分 类 器 和 测试 结果 到 文件 
FileOperate. writeData(Configuration.RESULT PRTH，dsList，Configuration 
. NODEMODEL, rightCount, errorCount, beginTime, endTime); 


2. AdaBoost 类 


(1) 构建 多 个 的 基础 分 类 器 的 组 合 。 


/xx 
* 构建 多 个 基础 分 类 器 的 组 合 
# @return dsList 基础 分 类 器 集 
*/ 
public List <DecisionStump> constructClassfier() { 
List <DecisionStump > dsList = new Arraybist <DecisionStump >(); 
int i=1; 
DecisionStumpClassfier dsc = new DecisionStumpClassfier(); 
while (i <= Configuration. ITER) { 


ts 
// 获 取 该 次 的 分 类 器 并 加 入 基础 分 类 器 集 
DecisionStump ds = dsc. constructDecisionStump ( this, 
trainDataArray) ; 
if(ds==null){ 
continue; 


jelsef 
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16 dsList.add(ds) ; 

17 // 获 取 多 个 分 类 器 boost 后 得 到 的 预测 标签 集 ,1 表示 采用 训练 数据 集 
18 int[ ] frstLableArray= this. getFrstLableArray(dsList, 1); 
19 // 比 较 预 测 标签 集 和 训练 数据 真实 标签 集 

20 boolean flag = true; 

2 int trainDataCount = trainLabelArray. length; 

22 for (int j=0; j< trainDataCount; j++) { 

23 if (frstLablehrray[j] != trainLabelArray[j]) { 
24 flag= false; 

25 break; 

26 } 

27 } 

28 // 如 果 都 预测 正确 ,结束 迭代 

29 if (flag) { 

30 break; 

31 } 

32 // 否 则 更 新 数据 样本 权重 并 继续 获取 下 一 个 分 类 器 
33 else{ 

34 weightArray = this. updateDataWeight(ds); 

35 

36 } 

37 } 

38 return dsList; 

49 3 


(2) 在 构建 决策 树桩 分 类 器 时 计算 该 分 类 器 的 误差 率 。 


/x¥ 

x 计算 当前 所 选 特征 下 的 误差 率 

* @param tmpArray 当前 特征 数组 
* @param threshold 阅 值 

* @param ltLabel 小 于 阔 值 的 标签 
x @param gtLabel 大 于 阔 值 的 标签 
x @return error 误差 率 

od 


CE 
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9 public double getError(double[ ] tmpArray, double threshold, int ltLabel, int 


gtIabel) { 

10 double error = 0.0; 

11 for (int i=0; i< tmpArray. length; i++) { 
12 // 小 于 国 值 

13 if (tmpArray[ i] < threshold) { 

14 // 预 测 标签 不 等 于 真实 标签 ,增加 误差 率 
15 if (trainLabelArray{ i] != ltLabel) 
16 error += weightArray[ i]; 

17 } else{ 

18 // 同 上 

19 if (trainLabelArray[ i] != gtLabel) 
20 error += weightArray[ i]; 

2 } 

22 | 

23 return error; 

32 


(3) 如 果 现 有 分 类 器 不 能 完全 准确 分 类 训练 数据 集 , 则 本 次 需要 更 新 每 个 数据 
样本 的 权重 。 


EN 

加 * 更 新 每 个 数据 样本 的 权重 

3 x @param ds 当前 构造 的 分 类 器 

4 * @return weightArray 更 新 后 的 数据 样本 权重 

5 */ 

6 public double[ ] updateDataWeight (DecisionStump ds) { 

入 int featureIndex = ds.getFeatureIndex();  // 所 选 特征 的 索引 号 
8 

9 


double threshold = ds.getThreshold( ); // 阔 值 

int ltLabel = ds. getLtLabel(); // 小 于 阔 值 的 类 别 
10 int gtLabel = ds. getGtLabel(); // 大 于 阅 值 的 类 别 
11 double alphaWeight = ds. getAlphaWeight();  // 当 前 分 类 器 的 权重 
2 
13 double[ ] tmpArray = trainDataArray[ featureIndex]; 


14 // 计 算 规范 化 因子 


15 
16 
Wn 
18 
19 
20 
2 
22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35. 
36 
37 
38 


39 
40 


41 
42 
43 
44 
45 
46 


47 


doubleZ=0.0; 
for (int i=0; i< tmpArray. length; it+) { 
// 小 于 阅 值 
if (tmpArray[ i] < threshold) { 
// 预 测 标签 不 等 于 真实 标签 
if (trainLabelArray{ i] != ltLabel) 
Z+=weightArray[i] * Math.pow(Math.E, alphaWeight); 
else 
Z+= weightArray[i] * Math.pow(Math.E, — alphaWeight); 
} else { 
// 同 上 
if (trainLabelahrray[i] != gtLabel) 
2+= weightArray[i] * Math.pow(Math.E, alphaWeight); 
else 
Z+= weightArray[i] * Math.pow(Math.E, -alphaWeight); 
1 
} 
// 更 新 数据 样本 权重 
for (int i=0; i< tmpArray. length; i++) { 
// 小 于 阔 什 
证 (tmpArray[i] < threshold) { 
// 预 测 标签 不 等 于 真实 标签 
if (trainLabelArray[ i] != ltLabel) 
weightArray[ i] = weightArray [i] * Math. pow (Math. E, 
alphaWeight); 
else 
weightArray[i] = weightArray[i] * Math. pow(Math.E, 
— alphaWeight); 
» 
// 大 于 等 于 阅 值 
else { 
// 预 测 标签 不 等 于 真实 标签 
if (trainLabelArray[ i] != gtLabel) 
weightArray[ i] = weightArray [i] * Math. pow (Math. E, 
alphaWeight); 


else 
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48 weightArray[i] = weightArray[i] * Math. pow(Math.E, 
— alphaWeight); 

49 ' 

50 weightArray[i] = weightArray[i] / 2; 

51 } 

52 return weightArray; 

S30 


(4) 综合 每 次 所 得 到 的 分 类 器 , 带 入 数据 计算 每 个 数据 样本 最 终 预测 结果 。 


1 /xx 

2 * 综合 每 次 所 得 到 的 分 类 器 , 带 入 原始 数据 计算 最 终 预 测 结果 

] * @param dsList 分 类 器 集 

4 * @param dataFlag 数据 标识 ,1 代表 训练 数据 ,2 代表 测试 数据 

5 # @return frstLables 预测 标签 集 

6 */ 

呆 public int[ ] getFrstLableArray(List <DecisionStump> dsList, int dataFlag) { 
8 double[ ] tmpLabels = new double[ trainDataArray[ 0]. length]; //double 


// 型 results 
9 int[ ] frstLables = new int[trainDataArray[0]. length]; //int 型 results 
10 
11 double[ ][] curDataArray = null; 
12 switch (dataFlag) { 
13 case 1: 
14 curDataArray = trainDataArray; 
15 break; 
16 Case 2: 
17 curDataArray = testDataArray; 
18 break; 
9 default: 
20 break; 
21 } 
22 
23 for (int i=0; i<dsList. size(); i++) { 
24 DecisionStump ds = dsList. get(i); 


25 int featureIndex = ds. getFeatureIndex( ); 





26 double threshold = ds. getThreshold( ); 


27 int ltLabel = ds. getLtLabel(); 

28 int gtLabel = ds. getGtLabel(); 

29 double alphaWeight = ds. getRlphaWeight(); 

30 

31 double[ ] tmpArray = curDatahrray[ featureIndex]; 
32 for (int j=0; j < tmpArray. length; j++) { 

33 if (tmpArray[j] < threshold) { 

34 tmpLabels[j] += alphaWeight * ltLabel; 
35 } else{ 

36 tmpLabels[j] += alphaWeight * gtLabel; 
37 ) 

38 } 

39 

40 //sign 函数 实现 二 分 

41 for (int k=0; k<frstLables.length; k++) { 

42 frstLables[k] = (int) Math. signum( tmpLabels[k]); 
43 } 

44 } 

45 

46 return frstLables; 

ay 


(5) 测试 分 类 器 。 


/xx 
x 测试 分 类 器 
* @param dsList 分 类 器 
* @param testLabelArray 测试 标签 集 
x @return result 测试 结果 (正确 和 错误 数 ) 
¥/ 
public int[ ] test(List<DecisionStump > dsList, int[] testLabelArray) { 
int[ ] result = new int[2]; 
int rightCount = 0; 
int errorCount = 0; 
if (Configuration. PERCENT <= 0.9) { 


Dowaoummwnb 


Pi. 
-oo 
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12 int testDataCount = testLabelArray. length; 

13 // 获 取 多 个 分 类 器 boost 后 得 到 的 预测 标签 集 ,2 表示 采用 测试 数据 集 
14 int[] frstLableArray= this. getFrstLableArray(dsList, 2); 
15 for (int i=0; i< testDataCount; i++) { 

16 证 (frstLableArray[ i] == testLabelArray[i]) 

17 rightCount++; 

18 else 

19 errorCount++; 

20 } 

21 } 

22 result[0] = rightCount; 

3 result[1] = errorCount; 

24 return result; 

252 4 


3. DecisionStumpClassfier 类 


(1) 构建 当 次 的 决策 树桩 。 


1 / 

2 * 构建 当 次 决策 树桩 

3 * @param adaBoost 算法 对 象 

4 * @param trainDatahrray 训练 数据 

5 x @return ds 当 次 的 决策 树桩 (为 空 表示 当前 最 低 错误 率 大 于 0.5, 使 得 无 法 构 

建 决策 树桩 ) 

6 */ 
public DecisionStump constructDecisionStump (AdaBoost adaBoost, double[ ][] 
trainDataArray) { 

8 int featureIndex= 1; // 所 选 特征 的 索引 号 

9 double threshold = 0.0; // 阅 值 

10 int ltLabel = 0; // 小 于 阔 值 的 类 别 

11 int gtLabel = 0; // 大 于 阔 值 的 类 别 

到 double minError = Double. MAX_VALUE; // 误 差 率 

13 double alphaWeight = 0.0; // 当 前 分 类 器 的 权重 
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15 
16 
17 
18 
19 
20 


21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
3 
34 
35 
36 


37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 


// 选 取 误 差 率 最 小 的 特征 和 阔 值 


int featureCount = trainDataArray. length; 
int dataCount = trainDataArray[ 0]. length; 


int i=1; 
while (i <= featureCount) { 


double[ ] tmpArray = trainDataArray[i - 1];// 数 据 样本 的 当前 所 选 特 


// 征 集合 


double max = AlgorithmUtil.getMax( tmpArray); 
double min = AlgorithmUtil.getMin( tmpArray); 


double step= (max — min) / dataCount; 
double tmpThreshold = min; 


double tmpErrorl = Double. MAX_VALUE; 
double tmpError2 = Double. MAX_VALUE; 
// 从 min 到 max 不断 增 加 步 长 ,计算 当前 阅 值 下 的 失误 率 


while (tmpThreshold <= max) { 
tmpArray = trainDataArray[i — 1]; 
tmpErrorl = adaBoost. getError( tmpArray, tmpThreshold, —1, 1); 


tmpError2 = adaBoost. getError( tmpArray, tmpThreshold, 1, 


证 (tmpErrorl < tmpError2) { 


if (tmpErrorl < minError) { 
featureIndex =i 一 1; 


threshold= tmpThreshold; 
ltLabel= 一 1; 
gtLabel = 1; 


minError = tmpErrorl; 


y 


} else{ 


if (tmpError2 < minError) { 
featureIndex=i — 1; 
threshold = tmpThreshold, 


ltLabel = 1; 
gtLabel= —1; 
minError = tmpError2 


; 





= 


第 5 章 AdaBoost : 


48 } 

49 tmpThreshold = tmpThreshold + step; 

50 } 

5 4 

52 } 

53 // 最 低 错误 率 应 满足 0<minError <0.5 

54 if (minError > 0 SS minError <0.5) { 

下 // 计 算 当 前 分 类 器 权重 

56 alphaWeight= 0.5 * Math.log((1 - minError) / minError); 

57 //System. out. println(" 本 次 分 类 器 最 低 错误 率 : " + minError); 

58 //System. out. println(" 本 次 分 类 器 权重 : " + alphaWeight); 

59 

60 // 构 建 当前 决策 树桩 

61 DecisionStump ds = new DecisionStump (featureIndex, threshold, 
ltLabel, gtLabel, alphaWeight); 

62 return ds; 

63 Jelse{ 

64 return null; 

65 } 

66 } 


(2) 打印 决策 树桩 分 类 器 。 


A 
2 * 打印 决策 树桩 分 类 器 
3 x @param dsList 决策 树桩 集 
4 * @param curNodeModel 当前 数据 实体 
5 */ 
6 public void printDecisionStumpClassfier( List < DecisionStump > dsList, Node 
curNodeModel) { 
8 int dsCount = dsList. size( ); 
DecimalFormat df = new DecimalFormat("#0.00"); 
10 System. out. println(" 共 " + dsCount + "个 决策 树桩 "); 
11 System. out. println(); 


12 while (i <= dsList.size()) { 


13 
14 
15 
16 
uh 
18 
19 
20 


21 


22 


23 
24 
25 
26 
27 


DecisionStump ds = dsList. get(i — 1); 

double threshold= ds. getThreshold( ); 

double alphaWeight = ds. getAlphaWeight( ); 

int featureIndex = ds. getFeatureIndex( ) ; 

String feature = curNodeModel. getFeatures()[featureIndex]; 

// 打 印 每 一 个 决策 树桩 

System. out. println(" 第 " + i+ "个 决策 树桩 为 : "); 

System. out. println(" 取 的 特征 为 : "+ feature+ ", 阅 值 为 : 
+ df. format (threshold) ); 

System. out. println(" "+ ds.getLtLabel() +",\\t" + feature+ "<" 
+ df. format(threshold) ) ; 

System. out. println(" "+ds.getGtLabel()+",\\t" + feature + "> 
= "+ df. format(threshold)); 

System. out. println(" 权 重 : "+alphaWeight) 

System. out. println( ); 

t+ 


5.3 实验 数据 


本 文选 择 在 公开 数据 集 UCI 上 的 Iris 数据 集 (http:/Varchive. ics. uci. edu/ml/ 
datasets/ Iris) 以 及 一 份 简单 的 数据 集 。 
Tris 数据 集中 每 个 数据 样本 均 有 四 个 属性 和 一 个 标签 , 表 5-2 展示 了 部 分 数据 











样本 。 
表 5-2 Iris 数据 集 部 分 数据 样本 
sepal_length sepal_width petal_length petal_width class 
5.1 3.5 1.4 0.2 1 
4.9 3.0 1.4 0.2 1 
4.7 3.2 1.3 0.2 1 
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续 表 

sepal_length sepal_width petal_length petal_width class 
4.6 3.1 1.5 0.2 1 
A 3.2 4.7 1.4 2 
6.4 3.2 4.5 1.5 2 
6.9 3.1 4.9 1.5 2 
5.5 2.3 4.0 ES £ 














另 一 份 数 据 集 来 自 ( 机 器 学 习 实 战 ) 第 5 章 , 该 书 作 者 把 它 用 于 Logistic 回归 。 
本 文 把 该 数据 集 取 名 为 SimpleDataSet, 用 于 AdaBoost。 表 5-3 是 该 数据 集 的 部 分 数 


























据 样本 。 
表 5-3 SimpleDataSet 数据 集 部 分 数据 样本 
x_axis y_axis class 
一 0.017612 14.053064 | 
一 1.395634 4. 662541 1 
一 0.752157 6.53862 二 
一 1.322371 7. 152853 一 1 
0.423363 11.054677 一 1 
0.406704 7. 067335 1 
0.667394 12.741452 = 
一 2.46015 6. 866805 1 





念 5.4 实验 结果 


5.4.1 结果 展示 





对 于 Iris 数据 集 , 由 于 其 有 4 个 属性 不 便于 可 视 化 展示 ,因此 我 们 给 出 经 
AdaBoost 后 所 生成 的 分 类 器 集 。 对 于 SimpleDataSet, 我 们 则 绘制 实验 效果 图 以 展示 


结果 。 


首先 把 AdaBoost 用 于 Iris 数据 集 , 表 5-4 展示 了 所 生成 的 分 类 器 集 , 同 时 展示 了 


把 测试 数据 用 于 最 终 分 类 器 所 预测 得 到 的 正确 分 类 和 错误 分 类 数 。 
表 5-4 AdaBoost 用 于 Iris 数据 集 后 生成 的 分 类 器 集 与 测试 结果 





总 共用 时 : 414ms 
共 14 个 分 类 器 





第 1 个 分 类 器 为 : 

取 的 特征 为 : petalWidth, 阅 值 为 : 1. 60 
1,petalWidth<1. 60 
—1,petalWidth>1. 60 

权重 : 1.354025100551105 


第 2 个 分 类 器 为 : 

取 的 特征 为 : petalLength, 阔 值 为 : 4. 92 
1,petalLength 一 4. 92 
一 1,petalLength 过 4. 92 

权重 : 0. 9076449833191255 





第 3 个 分 类 器 为 : 

取 的 特征 为 : petalLength, 阔 值 为 : 5. 14 
1,petalLength 一 5. 14 
一 1,petalLength 三 5.14 

权重 : 0.703945231704386 


第 4 个 分 类 器 为 : 

取 的 特征 为 sepalLength, 阅 值 为 : 6.51 
一 1,sepalLength 一 6.51 
1, sepalLength>6. 51 

权重 : 0. 6839372392899267 





第 5 个 分 类 器 为 : 

取 的 特征 为 : petalLength, 阅 值 为 : 4. 83 
1 ,petalLength 一 4. 83 
一 1,petalLength 二 4.83 

权重 : 0. 429936514537254 


第 6 个 分 类 器 为 : 

取 的 特征 为 petalWidth, 阔 值 为 : 1.71 
1,petalWidth 一 1.71 
一 1,petalWidth 三 1.71 

权重 : 0. 4899552768715438 





第 7 个 分 类 器 为 : 

取 的 特征 为 : sepalWidth, 阔 值 为 : 2. 81 
一 1,sepalWidth 一 2.81 
1,sepalWidth=2. 81 

权重 : 0. 39721503595826485 


第 8 个 分 类 器 为 : 

取 的 特征 为 : petalWidth, 阔 值 为 : 1.30 
1,petalWidth<1. 30 
—1,petalWidth=1. 30 

权重 : 0. 3975433595017072 





第 9 个 分 类 器 为 

取 的 特征 为 : petalLength, 阅 值 为 : 5. 14 
1,petalLength 一 5. 14 
一 1,petalLength 二 5.14 

权重 : 0. 6062702960358095 





第 10 个 分 类 器 为 : 

取 的 特征 为 : sepalWidth, 阅 值 为 : 3. 10 
一 1,sepalWidth 一 3. 10 
1,sepalWidth 三 3. 10 

权重 : 0. 4433451016170988 








总 共用 时 : 414ms 
共 14 个 分 类 器 
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第 11 个 分 类 器 为 : 
取 的 特征 为 : petalWidth, 阅 值 为 : 1.71 
1,petalWidth 一 1.71 


第 12 个 分 类 器 为 : 
取 的 特征 为 : sepalWidth, 阔 值 为 : 2. 61 
一 1,sepalWidth 一 2.61 





—1,petalWidth>1.71 1, sepalWidth>2. 61 
权重 : 0. 3668771900466325 权重 : 0. 4294725865428733 
第 13 个 分 类 器 为 第 14 个 分 类 器 为 : 


取 的 特征 为 : petalLength, 阔 值 为 : 4. 42 
1 ,petalLength 一 4. 42 
一 1,petalLength 二 4. 42 

权重 : 0. 4364675253599789 





取 的 特征 为 : petalLength, 阔 值 为 : 5. 14 
1,petalLength<5. 14 
一 1,petalLength 壹 5. 14 

权重 : 0. 43145215977489 





测试 数据 共 20 个 ,正确 19 个 ,错误 1 个 


其 次 ,把 AdaBoost 用 于 SimpleDataSet 
个 标签 ,便于 可 视 化 ,因此 我 们 绘制 该 数据 集 
图 5-6 所 示 。 


加 
> 
加 








数据 集 , 因 为 该 数据 集 只 有 两 个 属性 和 一 
及 所 生成 的 分 类 器 ,实验 效果 图 如 图 5-3 一 


o 
o 








< 


图 5-3 原始 数据 集 
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5-4 3 个 决策 树桩 分 类 器 








- 
DClass1 o 
oClass2 中 0 











图 5-5 5 个 决策 树桩 分 类 器 
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ol 
oClass2 中 0。o 
1 中 || 
“车 ] 
中 ] 
4 
图 5-6 ”10 个 决策 树桩 分 类 器 
5.4.2 结果 分 析 


通过 所 展示 的 结果 图 ,可 以 看 到 随 着 基础 分 类 器 (黑色 ) 的 逐渐 增加 ,所 生成 的 综 
合 分 类 器 (红色 ) 在 划分 数据 集中 的 Class 1( 蓝 色 方形 ) 和 Class 2( 绿 色 圆 形 ) 时 逐渐 
准确 ,这 也 进一步 证 实 AdaBoost 算法 综合 多 个 基础 分 类 器 后 所 取得 的 效果 远 优 于 一 
个 基础 分 类 器 。 

AdaBoost 算法 最 开始 仅 用 于 解决 二 分 类 问题 ,后 扩展 到 解决 多 分 类 问题 。 当 数 
据 样 本 具有 多 个 类 别 时 ,可 采用 两 种 方式 将 其 转换 为 二 分 类 问题 。 一 种 方式 是 把 训 
练 样本 某 一 类 当成 一 类 , 剩 下 的 几 类 归 为 同一 类 ; 另 一 种 方式 是 选择 训练 样本 某 一 
类 当成 一 类 ,再 选择 另外 的 某 一 类 自 成 一 类 。 不 管 哪 种 方式 ,AdaBoost 均 会 根据 类 
别 两 两 组 合 情 况 生成 多 个 最 终 分 类 器 ,并 基于 “多 数 表决 "的 规则 把 全 部 分 类 器 所 预 
测 的 最 多 类 别 作为 当前 数据 样本 类 别 。 





CART 


@ 6.1 CART 算法 原理 


还 记得 第 3 章 刚 开始 吗 ? 心理 测试 好 做 ,但 是 关键 是 这 些 题 怎么 出 才 准确 ? 答 
案 是 将 被 测试 的 群体 量化 得 当 并 且 区 别 有 方 。 有 没有 方法 挑选 最 具 区 别 性 的 问题 ? 
答案 之 一 是 条 件 粹 一 一 C4. 5。 管 案 之 二 是 基尼 系数 一 一 CART。 与 C4.5 相 比 ,小 改 


动 ,大 不 同 , 带 来 回归 的 应 用 和 动态 拟 合 的 简单 方法 。 


6.1.1 算法 引入 


在 生活 中 ,如 果 知 道 了 一 个 人 在 公司 的 工作 时 间 、 公 司 的 年 利润 ,如 何 去 预 测 他 


的 工资 呢 ? 如 表 6-1 所 示 , 有 一 些 假设 的 案例 。 
表 6-1 工资 与 工作 时 间 、 公 司 利润 关系 表 
工作 时 间 / 年 公司 年 利润 /( 万 元 /年 ) 


工资 /( 元 /月 ) 





4 600 


8000 





4 1000 


11 000 











10 800 


12 000 




















续 表 
工作 时 间 / 年 公司 年 利润 /( 万 元 /年 ) 工资 /( 元 /月 ) 
7 400 7000 
8 450 8500 
6 400 











现在 要 预测 一 个 工作 时 间 为 6 年 ,公司 年 利润 400 万 元 的 人 每 月 应 得 多 少 工资 ， 
面 对 这 样 一 个 问题 ,可 以 使 用 决策 的 方法 解决 。 但 这 同时 又 是 一 个 回归 问题 , 仅 使 用 
决策 的 方法 并 不 能 得 到 更 为 具体 的 答案 。 因 此 ,我 们 使 用 决策 树 中 的 CART 算法 构 
建 回 归 树 模型 进行 预测 。 如 图 6-1 所 示 , 回 归 树 就 是 一 棵 二 叉 树 , 树 节点 被 其 对 应 的 
特征 取 值 切 分 为 两 个 分 支 。 预 测 时 ,从 根 节点 开始 ,根据 节点 对 应 特征 的 取 值 进入 相 
应 的 分 支 区 域 ,达到 叶子 节点 就 能 得 到 预测 值 。 





图 6-1 回归 树 模型 图 

图 中 加 粗 的 路 线 表示 预测 的 过 程 ,首先 判断 根 节点 的 待 输入 特征 是 工作 时 间 , 为 
6 年 ,于 是 从 根 节点 1 出 发 ,进入 左 分 支 节点 2。 以 此 类 推 ,然后 根据 公司 年 利润 为 
400 万 ,进入 节点 5。 最 后 再 依据 工作 时 间 为 6 年 进入 叶 节 点 9, 预测 出 这 个 人 的 工资 
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为 每 月 7000 元 。 


6.1.2 科学 问题 


1. 相关 理论 


针对 上 述 问题 , 即 利 用 样本 数据 集 D 构建 回归 树 (Regression Tree, RT) ,再 将 预 
测 用 例 输入 树 模型 中 求解 目标 变量 。CART 算法 构建 的 回归 决策 树 为 一 个 二 又 树 ， 
其 节点 取 值 是 * 大 于 ”和 “小 于 等 于 ”, 节 点 的 左 分 支 是 “大 于 ”的 分 支 , 右 分 支 是 “小 于 
等 于 ”的 分 支 。 因 此 ,CART 算法 采用 的 即 是 递归 地 对 每 个 特征 进行 二 元 切 分 ,然后 
根据 输入 的 特征 值 预测 输入 样本 的 结果 。 


2. 问题 定义 


本 节 详 细 介绍 回归 树 算法 的 输入 输出 ,以 及 一 些 相 关 定 义 。 回 归 树 算法 是 
CART 算法 中 针对 回归 预测 的 部 分 ,该 算法 最 终 构建 一 个 树 状 结构 的 模型 ,被 称 为 回 
归 树 。 

输入 : 训练 样本 数据 D( 特 征 可 以 为 连续 型 数据 ) 

输出 : 二 又 树 状 结构 的 回归 树 模型 

相关 定义 ， 

(1) 回归 树 。 是 一 个 二 叉 树 状 结构 模型 , 除 叶 节 点 外 每 个 节点 均 有 且 只 有 两 个 
子 节点 ,分 别 形成 该 节点 的 左 子 树 和 右 子 树 。 当 子 节点 不 再 需要 被 继续 切 分 时 ,可 以 
一 个 单 值 作 为 该 节点 的 值 , 通 常 取 剩 余 目标 变量 的 平均 值 。 

(2) 待 切 分 的 特征 feature。 除 叶 节 点 外 的 每 个 节点 ,都 有 其 对 应 的 特征 被 进行 
切 分 。 对 于 每 一 个 节点 ,使 用 遍历 的 方式 选择 最 合适 的 特征 。 

(3) 待 切 分 的 特征 值 value。 选 择 了 节点 的 切 分 特征 ,还 需要 选择 最 合适 的 特征 
值 进行 切 分 。 特 征 值 的 选择 也 使 用 遍历 的 方式 。 

(4) 最 小 均 方 误差 。 对 于 每 一 次 选择 的 特征 与 特征 值 进行 数据 切 分 ,都 会 计算 
切 分 后 的 均 方 误差 ,以 均 方 误差 最 小 的 选择 作为 该 节点 的 特征 与 特征 值 。 最 小 均 方 
误差 的 计算 公式 : 
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min( min > ， Cu 一 ao 十 min>) (yi;— er)’} (6-1) 
其 中 ,f 和 w 表示 特征 和 特征 值 ,x; 和 >; 是 样本 数据 的 输入 和 输出 ,R, 和 Rs 是 该 节点 
切 分 后 的 左右 子 树 集 ,e 和 es 表示 切 分 后 左 子 树 和 右 子 树 的 平均 值 。 该 公式 计算 了 两 
个 子 树 的 目标 变量 值 与 平均 值 的 误差 ,误差 越 小 ,表示 切 分 的 效果 越 好 。 上 述 e 的 计 
算 公式 为 : 


e 王 也 (6-2) 


6.1.3 算法 流程 


1. 构建 回归 树 


本 算法 使 用 递归 的 方法 构建 回归 树 , 从 根 节 点 开始 ,以 深度 优先 的 方式 进行 节点 
切 分。 其 核心 是 在 对 每 一 个 节点 进行 切 分 时 ,遍历 所 有 输入 的 特征 feature 和 其 特征 
值 value ,按照 每 一 个 (feature,value) 将 数据 集 切 分 成 两 个 子 树 。 重 复 该 步 又 ,选择 最 
佳 切 分 特征 与 特征 值 。 需 要 注意 的 是 ,在 递归 的 过 程 中 ,该 节点 是 叶子 节点 时 ,停止 
迭代 。 


2. 选择 最 佳 特征 


在 构建 回归 树 的 过 程 中 ,对 于 一 个 需要 切 分 的 节点 ,选择 特征 feature 和 特征 值 
value ,将 数据 集中 特征 feature 的 值 大 于 等 于 value 的 一 部 分 作为 该 节点 的 左 ( 右 ) 子 
树 , 小 于 value 的 一 部 分 作为 该 节点 的 右 ( 左 ) 子 树 。 再 根据 公式 (6-1) 计 算 左 右 子 树 
的 总 均 方 误差 ,选择 总 均 方 误差 最 小 的 一 次 切 分 作为 该 节点 的 最 佳 切 分 方式 。 


3. 停止 条 件 
在 选择 最 佳 特征 时 ,会 存在 如 下 情况 ,使 节点 不 再 切 分 , 转 而 成 为 回归 树 的 叶子 


(1) 所 有 目标 变量 y 值 相等 时 ; 
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(2) 切 分 后 的 总 误差 下 降 值 小 于 设 定 的 误差 参数 EE; 

(3) 切 分 后 的 数据 集 样本 数量 小 于 设 定数 量 N。 

当 确定 某 节点 为 叶子 节点 时 ,可 使 用 当前 剩余 数据 集中 目标 变量 y 的 平均 值 作 
为 叶子 节点 的 值 。 


6.1.4 算法 描述 


算法 6-1 CART 算法 。 

输入 : 训练 样本 数据 也 ={(zn ,Ts yz 人 Tony) (Tn To 
ym)}; 
最 小 误差 下 降 值 E; 
允许 的 切 分 后 样本 数 N; 

过 程 : constructTree(D, E, N) 

1: 这 DD 中 目标 变量 y 值 相 等 时 ; return 

endif 

计算 切 分 前 D 的 误差 error 


for ;一 1,2.…, do 





cm wo 


for ) 王 Zi，zi…yzm do 
6 根据 i 和 j 对 DD 切 分 出 节点 的 左右 子 集 D, 、D。 

7 计算 切 分 后 的 子 集 D, 、D; 总 均 方 误差 newError 

8: end for 

9: end for 

10: 选择 最 小 的 newError 作为 minError 及 对 应 的 Di 、.D;, 与 i、j 

11: if minError < error then 

12: D, 、D, 作 为 待 划分 集合 ,i\j 为 节点 特征 feature 和 特征 值 value, 生 成 节点 
13: else return 


14: endif 
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15: 诈 切 分 后 的 总 误差 下 降 值 error 一 minError 一 E; return 
16: end if 

17: 论 切 分 后 的 数据 集 D 或 D, 样 本 数量 二 Ni return 

18: end 论 

19: constructTree(D, ,下 ,N) ,constructTree(D., ,下 ,N) 
输出 : 回归 树 模型 。 


6.1.5 补充 说 明 


1. 树 剪 枝 


对 于 回归 树 模型 ,如 果树 中 的 节点 太 多 ,就 会 造成 过 拟 合 的 现象 ,从 而 降低 预测 
的 准确 率 。 面 对 这 样 的 情况 ,通常 采用 剪 枝 的 方法 来 降低 其 复杂 程度 。 树 的 剪 枝 又 
分 为 预 剪 枝 和 后 剪 枝 。 

预 剪 枝 是 在 树 的 构建 过 程 中 进行 处 理 。 其 原理 是 在 树 的 构建 中 就 知道 哪些 节点 
可 以 被 剪 掉 , 从 而 不 需要 对 该 节点 继续 分 裂 。6. 1. 3 节 提 到 的 停止 条 件 就 是 一 种 预 
剪 枝 技术 ,如 所 有 目标 变量 y 值 相 等 时 、 切 分 后 的 总 误差 下 降 值 小 于 设 定 的 误差 参数 
以 及 切 分 后 的 数据 集 样本 数量 小 于 设 定数 量 , 当 满足 上 述 条 件 时 ,算法 会 停止 节点 分 
裂 ,直接 返回 叶子 节点 。 

后 剪 枝 是 在 回归 树 构建 好 以 后 进行 修剪 。 其 原理 是 在 完整 的 树 模型 上 ,通过 一 
定 的 裁剪 方法 ,得 到 一 个 更 为 简洁 的 树 模型 。 常 用 的 后 剪 枝 方 法 有 错误 率 降 低 剪 枝 
(Reduced-Error Pruning)、 翡 观 剪 枝 (Pessimistic Error Pruning) 和 代价 复杂 度 方法 
(Cost-Complexity Pruning)。 这 里 简单 介绍 一 下 错误 率 降 低 剪 枝 方法 ,由 底 向 上 删 
除 节点 ,使 该 节点 的 父 节点 成 为 叶子 节点 ,再 通过 验证 集合 测试 裁剪 后 的 预测 效果 。 
如 果 裁 剪 后 的 效果 比 原 效果 更 好 , 才 真 正 删除 此 节点 。 

在 回归 树 的 构建 中 ,可 以 将 两 种 剪 枝 技术 同时 使 用 。 
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2. 模型 树 


在 回归 树 模型 的 叶子 节点 中 , 取 值 为 叶子 节点 中 目标 变量 的 均值 ,这 种 方法 并 不 
是 最 准确 的 。 模 型 树 的 方法 是 在 回归 树 的 基础 上 ,将 叶子 节点 中 的 数据 进行 线性 拟 
合 , 形 成 一 个 线性 模型 。 即 叶子 节点 不 再 存储 一 个 单 值 ,而 是 一 个 线性 模型 。 该 方法 


可 以 更 有 效 地 减 小 计算 误差 。 


仿 6.2 CART 算法 实现 


6.2.1 简介 


本 节 展 示 了 算法 实现 的 流程 图 和 核心 类 。 如 图 6-2 所 示 , 是 算法 实现 的 流程 , 包 


合算 法 实现 的 类 和 函数 。 
如 表 6-2 所 示 为 算法 的 核心 类 及 其 描述 。 
表 6-2 类 名 称 及 其 描述 








类 名 称 类 描 述 
(描述 样本 数据 ) 
成 员 变量 : 

Proniple private ArrayList <Double > x; // 属 性 值 
private double y; // 目 标 值 
(描述 树 结构 中 的 节点 信息 ) 

成 员 变量 : 
全 private double feature; // 特 征 
private double value; // 特 征 值 
private Node leftNode; // 左 子 节点 
private Node rightNode; // 右 子 节点 














类 名 称 类 描 述 
(描述 回归 树 算法 ) 
函数 : 
/ ** 构造 回归 树 x / 
public Node constructTree( ArrayList < Example > exampleList, double 
BE double N){…} 

Regression 
/ xx 二 元 切 分 数据 集 * / 

Tree 


public HashMap < String, ArrayList < Example > > divideDataSet 
(ArrayList < Example > exampleList, int feature, double value){…} 


/xx 选择 最 佳 切 分 */ 
public HashMap < String, Object> selectBestPartition(ArrayList 





MainClass 
办 Ce 


<Example > exampleList，double E, double N){…} 
FileOperate \|/Algorii Example 
文件 操作 类 / 八 算 六 数据 类 








main 


入 口 函 数 







函数 





谈 取 数据 El 





loadData 多 Example 
数据 封装 初始 化 





dataProcessing | NR 
划分 训练 集 -全 -const ctTree | 5 
和 测试 保 “| 。 构建 权 
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6-2 算法 设计 流程 图 





Example 是 存储 单个 数据 的 类 ,包含 属性 变量 zx; 与 目标 变量 y。Node 是 存储 节 
点 信息 的 类 ,包含 该 节点 的 特征 、 特 征 值 、 左 子 节点 以 及 右 子 节点 。RegressionTree 
是 用 于 构建 回归 树 的 类 ,包括 递归 构建 树 的 外 层 函 数 , 将 数据 集 切 分 为 左右 子 树 的 函 
数 以 及 选择 最 佳 特征 和 特征 值 的 函数 。 


6.2.2 核心 代码 


RegressionTree 类 中 存在 下 述 三 个 函数 constructTree() ,devideDataSet() 和 
selectBestPartition()。 首 先是 构造 回归 树 的 外 层 函 数 constructTree(), 其 具体 如 下 。 


1 /x 

2 * 构造 回归 树 

3 # @param exampleList 训练 集 

4 * @param E 允许 的 误差 下 降 值 

5 * @param N 切 分 的 最 少 样本 数 

6 x @return node 树 的 根 节点 

yf */ 

8 public Node constructTree(ArrayList <Example> exampleList) { 

9 HashMap < String, Object > partition = selectBestPartition 
(exampleList) ;// 划 分 特征 

10 int feature = (Integer) partition. get("feature"); // 特 征 

24 double value = (Double) partition. get("value"); // 特 征 值 

12 Node node = new Node( ); 1/ 节点 

13 

14 // 停 止 条 件 : 为 叶子 节点 时 

15 if (feature== -1) { 

16 node. setFeature( feature) ; 

49 node. setValue(value) ; 

18 return node; 

EE } 

20 

21 // 得 到 划分 后 的 子 数据 集 

2 HashMap <String, ArrayList <Exanple >> dataSetMap = 


divideDataSet (exampleList, feature, value); 





23 RrrayList <Example> leftList = dataSetMap. get("leftList"); 


24 RrrayList <Example> rightList = dataSetMap. get ("rightList"); 
25 

26 // 递 归 构 建树 

27 Node leftNode = constructTree(leftList);  // 构 建 左 子 树 
28 Node rightNode = constructTree(rightList); ”// 构 建 右 子 树 
29 node. setLeftNode( leftNode); 

30 node. setRightNode(rightNode); 

31 node. setFeature( feature); 

32 node. setValue( value); 

33 

34 return node; 

25 


该 函数 中 包含 两 个 参数 容许 的 最 小 误差 下 降 值 已 和 容许 切 分 后 的 最 少 样本 数 
NN ,这 两 个 参数 在 选择 最 佳 切 分 特征 时 作为 停止 条 件 。 从 根 节点 开始 ,该 函数 调用 
selectBestPartition() 选 择 最 佳 的 切 分 特征 和 特征 值 ,然后 使 用 devideDataSet( ) 按 该 
切 分 特征 对 数据 集 进行 切 分 ,其 后 根据 切 分 后 的 数据 集 ,递归 构建 该 节点 的 左右 子 
树 。 需 要 注意 的 是 , 当 该 节点 是 叶子 节点 时 ,满足 停止 条 件 ,不 再 进行 递归 。 

devideDataSet() 函数 是 对 数据 集 进 行 二 元 切 分 的 函数 ,其 具体 如 下 。 


1 /x 

2 * 二 元 切 分 

3 * @param exampleList 训练 集 

4 * @param feature 特征 

5 * @param value 特征 值 

6 * @return dataSetMap 封装 的 左右 子 集 

了 */ 

8 public HashMap <String, ArrayList <Example >> divideDataSet( 

9 ArrayList <Example > exampleList, int feature, double value) { 

10 HashMap < String, ArrayList <Example >> dataSetMap = new HashMap < String, 
ArrayList <Example>>();// 存 储 左 右 子 树 

11 ArrayList <Example> leftList = new ArrayList <Example >(); 
// 左 子 树 

12 RrrayList <Example> rightList = new ArrayList <Example>(); 
// 右 子 树 





13 
14 // 二 元 划分 类 别 


5 for (int i=0; i< exampleList.size(); i++) { 

16 Example example = exampleList. get(i); 

17 if (example. getX().get(feature) > value) {// 大 于 value 时 
18 leftList. add( example) ; // 添 加 进 左 子 树 
19 } else{ // 小 于 等 于 value 时 
20 rightList. add(example); // 添 加 进 右 子 树 
21 } 

22 } 

23 

24 // 装 载 子 树 

25 dataSetMap. put ("leftList", leftList); 

26 dataSetMap. put ("rightList", rightList); 

27 

28 return dataSetMap; 

29 1 


devideDataSet() 函 数 按 选 定 的 特征 feature 和 特征 值 value 将 数据 集 
exampleList 切 分 为 左右 子 树 。 切 分 方式 为 特征 值 大 于 value 的 数据 ,被 划 入 左 子 树 ， 
否则 进入 右 子 树 。 

selectBestPartition() 是 选择 最 佳 特征 和 特征 值 的 函数 ,其 具体 如 下 。 


/x 
* 选择 最 佳 划 分 
* @param exampleList 训练 集 
* @param E 允许 的 误差 下 降 值 
* @param N 切 分 的 最 少 样本 数 
* @return partition 最 佳 的 划分 方式 
*/ 
public HashMap <String, Object > selectBestPartition( 
ArrayList <Example> exampleList) { 
HashMap <String, Object > partition= new HashMap < String, Object >(); 
// 返 回 值 
11 int feature=0; ”// 特 征 
12 double value =0;  // 特 征 值 


CoA 


已 
o 
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double error = 0; // 基 础 误差 

double minError = Double. MAX_VALUE; // 最 小 误差 

int length=0; // 特 征 长 度 
HashMap < String, ArrayList < Example >> dataSetMap = new HashMap < String, 
RrrayList<Example>>(); // 数 据 集 字 典 


ArrayList <Example> leftList = new ArrayList <Example >();// 左 子 树 
ArrayList <Example> rightList = new ArrayList <Example>();// 右 子 树 


// 停 止 条 件 : 只 有 一 种 剩余 结果 

证 (judgeNum( exampleList)) { 
feature= 一 17 
value = computeMean(exampleList); 
partition. put("feature"，feature) ; 
partition. put("value"，value) ; 


return partition; 
] 
// 循 环 计算 最 佳 特征 和 特征 取 值 
error = computeError( exampleList) ; // 基 础 误差 
length= exampleList. get(0) .getX(). size(); // 特 征 长 度 
for (int i=0; i< length; i++) { // 第 并 个 特征 


for (int j=0; j <exampleList. size(); j++) { // 第 j 个 数据 

double devideValue = exampleList. get(j).getX(). get(i); 

dataSetMap = divideDataSet (exampleList, i, devideValue);// 二 元 划分 
leftList = dataSetMap. get ("leftList"); 

rightList = dataSetMap. get ("rightList"); 


// 不 满足 条 件 时 
if((leftList. size() < Configuration. N) || (rightList. size()< 
Configuration. N)) 

continue; 


double newError = computeError(leftList) 
+ computeError(rightList); // 划 分 后 的 误差 
if (newError <minError) { 





46 feature= i; 


47 value = devideValue; 

48 minError = newError; 

49 } 

50 } 

51 } 

52 

3 // 停 止 条 件 : 误差 下 降 太 少 

54 if (error <minError || (error — minError) < Configuration. E) { 

55 feature= —1; 

56 value = computeMean(exampleList); 

537 partition. put("feature"，feature) ; 

58 partition. put("value", value); 

59 return partition; 

60 } 

61 

62 // 停 止 条 件 : 切 分 后 的 数据 集 太 小 

63 if ((leftList. size() < Configuration. N) | (rightList. size() < 
Configuration. N)) { 

64 feature =— 1; 

65 value = computeMean(exampleList); 

66 partition. put ("feature", feature); 

67 partition. put ("valve", value); 

68 return partition; 

69 } 

70 

FE partition. put ("feature", feature); 

72 partition. put("value"，value) ; 

| return partition; 

74 |} 


在 选择 特征 和 特征 值 时 ,循环 遍历 所 有 的 特征 feature 和 其 特征 值 value, 按 选 定 
的 (feature,value) 方 式 对 数据 集 切 分 ,并 计算 切 分 后 的 总 均 方 误差 。 遍 历 完 所 有 的 特 
征 和 特征 值 后 ,选择 误差 最 小 的 一 对 (feature, value) ,作为 该 节点 的 最 佳 切 分 特征 和 
特征 值 。 其 中 ,下 述 代码 中 存在 三 个 停止 条 件 。 第 一 是 数据 集中 剩余 的 目标 变量 y 
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只 有 一 种 结果 时 ,不 再 进行 切 分 ,直接 返回 叶子 节点 。 第 二 是 切 分 后 的 单个 数据 集 大 
小 不 满足 设 定 的 NN, 因此 就 不 应 该 进行 切 分 。 第 三 是 选择 的 最 佳 方式 切 分 后 ,误差 的 
下 降 值 低 于 设 定 的 正 , 则 切 分 的 效果 不 理想 ,因此 也 不 能 按 此 方式 切 分 ,而 直接 创建 
叶子 节点 。 

补充 一 些 函数 的 内 部 实现 ,分 别 是 计算 数据 集中 目标 变量 y 的 平均 值 函数 
computeMean() ,计算 数据 集 的 总 方差 函数 computeError() ,以 及 判断 剩余 数据 集 目 
标 变量 是 否 只 有 一 种 结果 的 函数 judgeNum() 。 


ownoumewnb 


/x 
* 计算 平均 值 
* 不 再 切 分 数据 时 ,得 到 目标 变量 均值 
*/ 
public double computeMean(ArrayList <Example > exampleList){ 
double mean= 0; 


// 计 算 均 值 

for (int i= 0; i< exampleList. size(); i++) { 
mean += exampleList. get (i). getY(); 

1 

mean/ = exampleList. size(); 


return mean; 


} 


/xx 
* 计算 总 方差 
* 总 方差 越 小 , 表示 样本 点 离散 程度 越 小 
x*/ 
public double computeError( ArrayList <Example > exampleList){ 
double variance= 0;// 方 差 
double mean = computeMean( exampleList) ;// 平 均值 


// 求 总 方差 


for (int i=0; i< exampleList. size(); i++) { 


27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
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variance += Math. pow(exampleList.get(i).getY() 一 mean, 2); 


return variance; 


1 


7 
* 判断 剩余 结果 是 否 只 有 一 种 
*/ 
public boolean judgeNum(ArrayList <Example > exampleList){ 
boolean flag = true; // 只 有 一 种 剩余 结果 


HashSet <Double> resultSet = new HashSet < Double >( ) ;// 结 果 集 


for (int i=0; i< exampleList. size(); i++) { 
if(resultSet. size()>1){ ”// 存 在 一 种 以 上 剩余 结果 
flag= false; 
break; 
Jelse{ 
resultSet. add(exampleList. get(i). getY()); 


return flag; 


人 @ 6.3 实验 数据 


本 实验 将 使 用 UCI 公开 数据 集 airfoil_self_noise( 翼 型 自 噪声 ) ,该 数据 集 的 下 载 
地 址 是 http://archive. ics. uci edu/ml/datasets/ Airfoil 十 Self-Noise。 本 数据 集 是 
NACA 在 2014 年 发 布 的 一 组 关于 0012 楼 型 机 在 不 同 风 洞 速度 和 角度 的 数据 ,数据 
统计 如 表 6-3 所 示 。 





表 6-3 数据 统计 信息 

















数 据 统 计 值 
Example 1503 
Training Set 1200 
Test Set 303 
Range of y 103. 38 一 140.987 
attributes 6 





该 数据 集 包含 6 个 属性 ,分 别 是 频率 、 角 度 、 弦 长 .自由 流速 度 、 吸 力 侧 位 移 厚 度 
以 及 输出 的 y 值 声 压 等 级 。 


人 @ 6.4 实验 结果 


6.4.1 结果 展示 


本 实验 将 容许 的 误差 下 降 值 正 设 为 0.01, 切 分 后 的 最 少 样本 数 N 设 为 4, 预测 
结果 展示 如 表 6-4 所 示 。 
表 6-4 CART 算法 部 分 预测 结果 比较 
































真 实 值 预 测 值 
118.214 120.1317777777778 
118.964 120.1317777777778 
120. 484 120.1317777777778 
122.754 120.1317777777778 
114.085 .442 750 000 000 03 
117.875 .442 750 000 000 03 
121.165 4. 969 259 259 259 29 
122.435 .969 259 259 259 29 
117.054 .504 666 666 666 7 
133.553 .425 499 999 999 97 











120.798 117.504 666 666 6667 
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真 实 值 预 测 值 
118.018 120.424 207 547 169 8 














平均 误差 : 2. 529 132 580 886 035 4 


该 表 展示 的 是 部 分 数据 的 预测 结果 和 真实 结果 的 比较 ,通过 实验 结果 看 出 ,回归 
树 预测 的 y 值 平均 误差 为 2. 529 132 580 886 035 4。 


6.4.2 结果 分 析 


上 述 实验 数据 的 目标 变量 y 的 取 值 范围 为 103. 38 一 140. 987 ,预测 的 平均 误差 在 
2. 529 13 左右 ,是 在 一 个 可 接受 的 范围 内 。 

对 于 一 些 较为 复杂 的 线性 关系 或 非 线 性 关系 的 数据 ,在 一 般 的 线性 回归 模型 无 
法 较 好 解决 的 情况 下 ,可 以 使 用 CART 算法 构造 回归 树 模 型 。 回 归 树 模型 将 上 述 数 
据 进行 分 段 处 理 , 形 成 树 的 分 支 。 预 测 时 ,根据 树 节点 的 分 支 ,不 断 地 决策 ,得 到 最 终 
结果 。 但 是 ,预先 设 定 的 参数 正和 对 树 的 构建 非常 敏感 。 因 此 ,合理 的 参数 选择 
对 结果 的 预测 也 有 着 关键 的 作用 。 





K-Means 


e 7.1 K-Means 算法 原理 


如 果 明 知道 样本 分 为 几 类 ,如 何 划 分 ? 要 在 每 个 徐 中 找 个 标兵 (或 者 空间 坐标 ) ， 
如 何 定 标兵 ? 迭代 找 同 类 ,同类 找 中 心 (Means)。 如 何 确定 标兵 ? 两 次 标兵 位 移 足 
够 少 说 明 标 兵 基本 就 是 能 的 中 心 。 


7.1.1 算法 引入 


近年 来 , 随 着 电子 商务 的 迅速 发 展 ,个 性 化 推荐 系统 的 研究 越 来 越 受 到 重视 。 如 
何 通过 用 户 数据 找到 消费 习惯 不 同 的 人 群 ,进而 向 他 们 推荐 定制 化 的 商品 ,是 当前 研 
究 的 热门 话题 。 例 如 ,在 我 们 未 知 这 些 人 群 应 该 属于 哪些 群体 时 ,可 以 通过 用 户 的 年 
龄 阶段 ,平均 消费 等 指标 进行 观察 ,进而 他 们 聚 成 不 同 的 群体 ,例如 学 生 、 上 班 族 , 土 
豪 等 。 部 分 用 户 的 年 龄 .平均 消费 情况 如 表 7-1 所 示 。 
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表 7-1 部 分 用 户 的 年 龄 .平均 消费 情况 























用 户 年 苍 平均 消费 
A 18 300 
B 21 250 
C 28 800 
D 32 1200 
E 40 3000 
F 45 2800 








为 了 更 加 清楚 地 体现 表 7-1 中 用 户 的 年 龄 平均 消费 等 情况 ,图 7-1 对 各 年 龄 段 
的 消费 分 布 进行 了 可 视 化 呈现 。 


各 年 龄 段 消费 分 布 图 
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图 7-1 部 分 用 户 各 年 龄 段 消费 分 布 图 
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由 于 没有 参考 的 学 习 样本 , 即 不 知道 所 有 人 应 该 属于 何 种 类 别 , 采 用 以 前 使 用 的 
分 类 算法 时 ,没有 参考 的 依据 ,这 时 仅 通过 观察 经 验 知道 人 群 中 所 有 人 可 以 分 为 几 大 
类 的 情况 下 ,可 以 采用 K-Means 等 “ 聚 类 ”算法 完成 人 群 的 归 类 区 分 。 聚 类 与 分 类 算 
法 的 区 别 主要 就 在 于 ,分 类 的 目标 是 事先 已 知 的 ,而 聚 类 的 类 别 是 没有 预先 设 定 的 。 

通过 观察 图 7-1, 不 难 发 现 这 部 分 人 群 可 以 被 聚 成 三 类 ,之 后 便 可 以 对 聚 好 类 的 
人 群 打上 标签 ,有 针对 性 地 对 不 同 的 人 群 推荐 商品 ,投放 广告 等 。 那 么 如 何 根据 这 些 
人 的 个 人 数据 完成 将 他 们 到 成 几 类 的 任务 ,下 面 将 详细 介绍 -Means 算法 用 以 解决 
这 个 问题 。 
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7.1.2 科学 问题 


K-Means 算法 是 一 种 无 监督 的 学 习 , 被 称 为 K-Means 是 因为 它 可 以 自发 地 将 很 
多 样本 聚 成 个 不 同 的 类 别 , 例 如 上 文中 提 到 的 不 同人 群 。 每 一 个 类 别 即 为 一 个 簇 ， 
并 且 簇 的 中 心 是 由 簇 中 所 有 点 的 均值 计算 得 出 的 。 

给 定 样本 集 D={ziyzz，…zoj,zi 是 一 个 m 维 的 向 量 ,代表 样本 集中 的 每 一 个 
样本 ,其 中 ,m 表示 样本 xz 的 属性 个 数 。 例 如 ,上 文中 提 到 的 A,B 等 人 分 别 代表 一 个 
样本 ,其 样本 由 两 个 属性 构成 , 即 D={(18,300),(21,250),…)。 

聚 类 的 目的 是 将 样本 集 DD 中 相似 的 样本 归 入 同一 集合 。 我 们 将 划分 后 的 集合 称 
为 簇 , 用 G 表示 ,其 中 ,G 的 个 数 用 k 来 表示 。 每 个 徐 有 一 个 中 心 点 , 即 徐 中 所 有 点 的 
中 心 , 称 为 质心 ,用 wu 表示 。 

因此 ,K-Means 算法 可 以 表示 为 将 D= {zz ,Ts，…,z,) 划分 为 G= {G1 ,G2，…， 
G4} 的 过 程 ,每 个 划分 好 的 簇 中 的 各 点 ,到 质心 的 距离 平方 之 和 称 为 误差 平方 和 , 即 
SSE(Sum of Squared Error) 为 


SSE= 2 2 lx—pl’ 
因此 K-Means 算法 应 达到 G1 ,G,,… ,Gs 内 部 的 样本 相似 性 大 ,入 与 徐 之 间 的 样 
本 相似 性 小 的 效果 , 即 尽 可 能 地 减 小 SSE 的 值 。 
输入 为 : 样本 集 刀 , 秘 的 数量 人 。 
输出 为 : G= {G1,G,，,…,G), 即 个 划分 好 的 簇 。 


7.1.3 算法 流程 


(1) 首先 , 选 定 上 的 值 。 

(2) 在 样本 集 中 ,随机 选择 个 点 作为 初始 质心 , 即 {jpa ,pez ，… ,px)。 

(3) 计算 D 中 每 个 样本 z; 到 每 个 质心 yy; 的 距离 ,计算 距离 的 公式 如 下 
Li= (zp)? 

(4) 若 4; 的 距离 最 小 , 则 将 zx; 标记 为 簇 C; 中 的 样本 , 即 一 {zi) 。 
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(5) 将 所 有 样本 点 分 配 到 不 同 的 簇 后 ,计算 新 的 质心 , 即 G; 中 所 有 点 的 平均 值 





愉 = 记 2.eex, 并 计算 误差 平方 和 。 


(6) 比较 前 后 两 次 误差 平方 和 的 差 值 和 设 定 的 阔 值 , 若 大 于 阔 值 , 则 重复 步骤 
(3)~(5)。 
(7) 若 误差 平方 和 的 变化 小 于 设 定 的 阔 值 ,说 明 聚 类 已 完成 。 


7.1.4 算法 描述 


算法 7-1 K-Means 聚 类 算法 。 
输入 : 样本 集 D= {zivzz，…zo), 徐 数 人 , 国 值 s 





过 程 : 

1: 在 样本 集 DD 中 随机 选取 k 个 质心 jx 

2: repeat 

3: 令 Gi 为 空 集 

4: for i 王 1.2.…,n, do 

5: 计算 z; 与 we 之 间 的 距离 ,车 z; 到 jj; 的 距离 最 近 , 则 将 zx; 标记 为 G; 


中 的 样本 ,G; 二 {zx;} 


6 end for 
p for j=1,2,.…,k do 
8: 计算 新 的 质心 ,wy 和 当前 的 误差 平方 和 SSE” 
9 if SSE'—SSE>e then 
Be EE 7 1 
10: 将 当前 质心 更 新 为 / 必 一 GT 
11: else 
12: 保持 质心 不 变 
13: end if 
14: end for 


15: until SSE'—SSE<e 
输出 : 划分 好 的 秘 C 一 {G ,Gs，… ,Gx} 
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7.1.5 补充 说 明 


1. 质心 的 选择 


质心 的 选择 通常 情况 下 有 两 种 ,一 种 是 在 所 有 的 样本 点 中 随机 选择 个 点 作为 
初始 质心 , 即 本 文中 所 选择 的 方法 。 另 一 种 是 在 所 有 样本 点 属性 的 最 小 值 与 最 大 值 
之 间 随机 取 值 ,这 样 初始 质心 的 范围 仍然 在 整个 数据 集 的 边界 之 内 。 


2. 收敛 条 件 


本 文中 应 用 的 收敛 条 件 为 最 小 平方 误差 , 即 SSE 的 前 后 变化 小 于 某 一 阔 值 。 也 
可 通过 质心 的 前 后 变化 小 于 某 一 阔 值 来 判断 算法 收 仇 。 注 意 阔 值 的 设 定 不 要 过 小 ， 
和 否则 会 迭代 次 数 过 长 ,也 可 以 像 本 文 代码 中 一 样 设置 一 个 最 大 迭代 次 数 作为 限制 。 


3. 非 数值 类 型 数据 的 处 理 


在 K-Means 算法 中 ,所 输入 的 数据 均 为 数值 类 型 。 每 个 样本 实际 上 是 一 种 向 
量 ,是 一 种 数学 抽象 。 现 实 世界 中 很 多 属性 是 可 以 抽象 成 向 量 的 ,比如 上 文中 所 提 到 
的 年 龄 ,收入 等 ,之 所 以 要 抽象 成 向 量 的 目的 就 是 让 计算 机 知道 某 两 个 属性 间 的 距 
离 。 比 如 ,我 们 认为 ,20 岁 的 人 离 25 岁 的 人 的 距离 要 比 离 12 岁 的 距离 要 近 , 帽 子 这 
个 商品 离 衣 服 这 个 商品 的 距离 要 比 手机 要 近 , 等 等 。 

因此 ,如 果 我 们 所 分 析 的 数据 集 并 非 都 是 数值 型 的 数据 ,那么 就 需要 用 户 提前 对 
数据 进行 处 理 , 将 其 转换 数值 类 型 。 


4. 算法 调 优 一 一 后 处 理 


由 于 K-Means 算法 中 的 人 值 需要 手动 设 定 , 因 此 我 们 难以 判断 选择 的 上 值 是 否 
正确 ,通常 我 们 用 误差 平方 和 (及 上 文中 提 到 的 SSE) 作 为 评价 标准 ,下 面 将 介绍 利用 
SSE 对 聚 类 结果 进行 后 处 理 的 方法 。 

观察 图 7-2, 可 以 发 现 虽然 已 经 得 到 了 三 个 簇 ,但 是 分 类 结果 并 不 理想 。 这 是 因 
为 K-Means 算法 容易 陷入 局 部 最 小 值 。 
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图 7-2 某 次 聚 类 结果 

(1) 将 SSE 最 大 的 筷 划 分 为 两 个 秘 

通过 观察 会 发 现 ,图 7-2 中 圆 形 的 篮 中 各 点 离 质心 距离 之 和 相对 较 远 ,因此 可 以 
将 该 篮 中 的 点 取出 ,单独 运行 K-means 算法 ,将 其 重新 划分 为 两 个 徐 。 

(2) 将 两 个 簇 合并 

为 了 保持 划分 的 复数 不 发 生 改 变 ,可 以 将 两 个 簇 进行 合并 。 合 并 时 ,可 以 选择 直 
接 将 最 近 的 两 个 质心 合并 ,也 可 以 合并 两 个 使 得 SSE 增幅 最 小 的 秘 , 即 合并 所 有 可 能 
的 两 个 簇 并 计算 SSE 值 ,进行 比较 ,直到 找到 最 优 解 。 

经 过 后 处 理 后 ,图 7-2 中 的 聚 类 结果 如 图 7-3 所 示 。 
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图 7-3 后 处 理 后 的 聚 类 结果 
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Ee 7.2 K-Means 算法 实现 


7.2.1 简介 


图 7-4 所 示 为 算法 设计 的 主要 流程 。 


FileOperate 
文件 操作 





Example 
数据 类 











loadData 各 Point 
读 取 数据 数据 封装 | 初始 化 
3 execute 
执行 K-Means 
4 
initCenter 
初始 化 质心 


$l! ares 








countRule |-— setCluster | 
计算 误差 平方 和 | 将 数据 点 放 入 | ! 核心 
函数 竹中 ! 8 算法 
1 1 
(和 于 | 一 了 2 若 | 过 代 
721 敌 误 | 。 711 闭 设 | | 
1 小 关 ! 大 差 | ! 
1 于 平 ' 守 平 | | 
1 国 方 1 同方 | | 
十 值 和 + 值 和 | 1! 
printDataArray | setNewCenter- 上 -/ 一 -辅助 操作 
打印 结 更 新 质心 --- 核 心算 法 

















图 7-4 算法 设计 的 主要 流程 图 





类 名 称 及 其 描述 如 表 7-2 所 示 。 
表 7-2 类 名 称 及 其 描述 





类 描 述 





Example 


(描述 数据 集中 的 样本 点 ) 

成 员 变 量 : 

private double[ ] attributes; // 数 据点 的 属性 集合 
private int index; // 标 志 所 属 簇 的 索引 

函数 : 

public Example setAttributes(double[ ] attributes) {…} 





KMeans 





(描述 算法 流程 7 

函数 : 

/x** 初始 化 质心 ,在 数据 集中 随机 选择 k 个 点 作为 初始 质心 * / 

public RrrayList < ExampleF > initCenter (ArrayList < Example > 
dataList, int k) {…} 


/xx 初始 化 k 个 徐 x*/ 
public ArrayList < ArrayList <Example >> initCluster( int k) {…} 


/x** 将 样本 点 放 进 距离 最 近 的 质心 相关 的 敌 * / 
public hrrayList < ArrayList <Example >> setCluster(ArrayList 
<Example> dataList, ArrayList <Example> center, int k) {…} 


/ xx 更 新 质心 */ 
public ArrayList < Example > setNewCenter ( ArrayList < Example > 
dataList, int k,ArrayList <ArrayList <Example>> cluster) {…} 


/ xx 执行 算法 */ 
public void execute( ArrayList < Example> dataList, int k) {…} 





第 7 章 K-Means : 








AlgorithmUtil 





(描述 算法 中 用 到 的 工具 类 ) 
函数 : 


/xx 计算 样本 点 到 质心 的 距离 x / 

public static double distance(Example element, Example center) {-…} 
/xx 获得 数据 集中 距离 质心 最 近 的 样本 点 位 置 */ 

public static int minDistance(Double[ ] distance) {…} 

/*#*x 计算 两 点 间 平 方 误差 */ 

public static double errorSquare (Example element, Example center) 
两 

/** 计算 平方 误差 和 * / 

public static void countRule (ArrayList < RrrayList < Example >> 
cluster, ArrayList < Example > center, ArrayList <Double> jc) {…} 
/xx 打印 数据 集 * / 

public static void printDataArray (ArrayList < Example > dataArray, 
String dataArrayNanme) {…} 


7.2.2 核心 代码 


1. initCenters 


在 数据 集 的 样本 点 中 ,随机 选择 个 点 ,作为 初始 的 质心 。 


/xx 


* 初始 化 存放 质心 的 动态 数组 ,分 成 多 少 簇 就 有 多 少 个 质心 


* 


x*/ 


人 
2 
3 
4 * @return 中 心 点 
5 
6 


public ArrayList <Example> initCenter(hrrayList<Exanple> dataList, int 


k) { 
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ArrayList <Example> center = new ArrayList <Example>(); 
boolean flag; 
int j; 

10 Random random = new Random( ); 

i int[ ] randoms = new int[k]; 

12 int dataListLength= dataList. size() 

13 // 实 际 随机 的 是 下 标 

14 int temp = random. nextInt (dataListLength); 

15 randoms[0] = temp; 

16 for (int i=1; i<k; i++) { 

1 flag= true; 

18 while(flag) { 

19 temp = random. next Int( dataListLength) ; 

20 j=0; 

21 // 判 断 重复 

22 while(j<i) { 

23 if(temp == randoms[ j]) break; 

24 i 

25 ' 

26 if(j==i) { 

27 flag= false; 

28 } 

29 ) 

30 randoms[i] = temp; 

31 } 

32 

33 for (int i=0; i<k; i++) { 

34 center.add(dataList. get(randoms[ i]));// 生 成 质心 的 动态 数组 

35 } 

36 // 输 出 初始 的 随机 质心 

37 System. out. println(" 初 始 化 的 随机 质心 为 : "); 

38 for (int i=0; i<center. size(); i++) { 

39 for (int j1=0; jl <center.get(0).getAttributes(). length; 

jl++) { 
40 System. out. print (center. get (i). getAttributes( ) [jl] 


Es 
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2. setCluster 


将 数据 集中 的 每 个 样本 点 , 放 人 距离 最 近 质 心 的 相关 簇 中 。 





3. setNewCenter 


取 簇 中 所 有 点 的 平均 值 ,作为 新 的 质心 。 


/x 

2 * 设置 新 的 簇 心 的 方法 

* @return 

4 */ 

public ArrayList <Example > setNewCenter (ArrayList < Example > dataList, 
int k, ArrayList <ArrayList <Example>> cluster) { 

6 ArrayList <Example> centers = new ArrayList <>(); 

yt 

8 for (int i=0; i<k; i++) { 

9 Example newCenter = new Example( ); 

10 int n= cluster.get(i). size(); 

1 if(n =0) { 

12 int attrLength = dataList. get (0).getAttributes(). length; 

13 double[ ] attrList = new double[ attrLength]; 

14 for (int j=0; j <attrLength; j++) { 

15 for (int x=0; x<n; x++) { 

16 // 计 算 每 个 点 的 特征 属性 值 之 和 分 别 取 均 值 

17 attrList[j] += cluster. get(i).get(x) 

,getAttributes()[j]; 

18 1 

19 attrList[j] /=n; 

20 

2 newCenter. setAttributes(attrList); 

22 centers. add( newCenter); 

23 } 

24 } 

25 System. out. println(" 更 新 后 的 随机 质心 为 : "); 

26 for (int i=0; i<centers. size(); i++) { 

27 for (int j1=0; jl <centers. get(0).getAttributes(). length; 


JE 
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28 System. out. print (centers. get (i). getAttributes()[j1] 
a 

29 } 

30 System. out. println( ); 

31 } 

32 return centers; 

33 } 

4. execute 


执行 K-Means 算法 。 


1 /xx 

* 执行 K- Means 算法 

] * @parank 

4 * @param dataList 

5 */ 

6 public void execute( ArrayList <Example> dataList, int k) { 

了 ArrayList < Example> center = initCenters( dataList,k);// 初 始 化 质心 
8 RrrayList < ArrayList < Example >> cluster = new hrrayList<>();// 初 始 化 秘 
9 ArrayList <Double> SSE = new ArrayList <Double>();// 误 差 平方 和 
10 int iter =0;//iter 为 迭代 次 数 

3 

12 // 循 环 分 组 ,直到 误差 不 再 变化 或 超过 最 大 迭代 次 数 

3 while(iter <= Configuration. MaxIter) { 

14 

15 cluster = setCluster( dataList, center, k); 

16 alUtil. countRule( cluster，center，SSE);// 计 算 平方 误差 

18 // 误 差 不 变 ,分 组 完成 

19 /W/m 的 非 零 判断 很 重要 

20 if(iter !=0) { 


2 System. out. println(" 平 方 误差 之 和 为 : " + SSE. get(iter) ); 


22 
23 


24 
25 
26 
2 
28 
29 
30 
31 
32 
33 


34 
35 


36 


System. out. println(); 
if (Math. abc (SSE. get (iter) — SSE. get (iter - 1))< 
Conf iguration. THRESHOLD) { 
break; 
) 
上 
center = setNewCenter(dataList,k,cluster); 
itert++; 
System. out. println(" 当 前 为 第 " + iter + "次 迭代 "); 
} 


for(int i=0;i<cluster. size();i++){ 
AlgorithmUtil. printDataArray (cluster. get (i),"cluster["+I 
a 抽 下 

} 

System. out. println("note:the times of repeat:iter = "+ iter); 

// 输 出 迭代 次 数 


人 @ 7.3 实验 数据 


为 了 便于 展示 ,将 采用 一 个 常用 的 二 维 数据 集 一 一 4k2_far 作为 测试 样本 。 样 例 


如 表 7-3 所 示 。 


表 7-3 测试 样本 集 的 部 分 样 例 

















7.1741 5.2429 
6.914 5.0772 
7.5856 5.3146 
6.7756 5.1347 








其 中 ,zi ,zx 表示 数据 集中 样本 的 属性 。 数 据 集 的 大 致 分 布 如 图 7-5 所 示 。 
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图 7-5 数据 集 


除 此 之 外 ,一 些 经 典 数据 集 例 如 Iris、Wine、Glass 等 ,也 适用 于 作为 聚 类 算法 的 
测试 数据 。 


@ 7.4 实验 结果 


7.4.1 结果 展示 

通过 图 7-6 可 以 观察 发 现 , 随 着 不 断 的 迭代 ,质心 也 不 断 地 接近 每 个 徐 的 中 心 
位 置 。 
7.4.2 结果 分 析 


K-Means 的 优点 主要 体现 在 算法 简单 .容易 实现 等 方面 。 而 在 实际 情况 中 ,K- 
Means 有 一 些 明 显 的 缺点 需要 注意 。 


1. k 值 的 选择 
由 于 A 值 需要 用 户 自 己 设 定 ,因此 在 高 维 属性 的 数据 集中 ,难以 确定 数据 集 应 该 
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图 7-6 K-Means 迭代 过 程 
被 聚 为 几 类 ,而 k 值 的 选择 会 对 聚 类 效果 造成 很 大 的 影响 。 
在 通常 情况 下 ,一般 会 采用 多 次 变化 & 值 ,观察 其 聚 类 效果 的 方法 。 但 此 方法 不 
适用 于 大 型 数据 集 。 


2. 质心 的 选择 


在 初始 质心 的 选择 上 ,一 般 采用 随机 的 方法 ,这 同样 会 对 聚 类 的 效果 造成 影响 。 
若 随 机 选择 的 质心 过 于 偏离 ,甚至 会 出 现 空 秘 的 现象 。 

处 理 选取 初始 质心 问题 的 一 种 常用 技术 是 : 多 次 运行 ,每 次 使 用 一 组 不 同 的 随 
机 初始 质心 ,然后 选取 具有 最 小 SSE( 误 差 的 平方 和 ) 的 簇 。 这 种 策略 简单 ,但 是 并 且 
耗 时 ,并 且 效 果 可 能 不 好 ,这 取决 于 数据 集 和 寻找 的 簇 的 个 数 。 





Apriori 


@ 83.1 Apriori 算 法 原理 


有 100 张 超市 购物 清单 ,每 单 有 十 几 个 商品 ,如 何 从 中 找到 两 个 最 常用 的 组 合 ? 
第 一 步 , 找 被 买 最 多 的 商品 以 及 它们 的 单子 ; 第 二 步 ,在 这 些 单子 中 找 下 一 个 最 多 的 
商品 以 及 它们 的 单子 ,于 是 就 有 了 这 个 频繁 项 集 , 加 上 一 个 迭代 和 更 改 下 上 文 的 立 
值 ,这 就 是 Apriori。 


8.1.1 算法 引入 


大 多 数 人 都 有 过 去 肯德基 点 餐 的 经 历 。 如 图 8-1 所 示 , 可 能 会 点 鸡翅 十 苗条 ,也 
可 能 会 点 汉堡 十 可 乐 。 但 是 ,从 消费 者 的 角度 选择 套餐 往往 会 比 单 点 更 加 划算 。 另 
一 方面 ,从 商家 的 角度 ,怎么 从 消费 者 的 行为 习惯 中 去 发 现 “套餐 ”不仅 可 以 促进 消 
费 , 还 能 在 一 定 程度 上 增加 客户 的 忠诚 度 ? 

那么 ,如 果 读者 是 肯德基 的 产品 经 理 , 读 者 会 如 何 从 以 往 客户 的 点 餐 行为 中 挑 出 
最 受 欢迎 的 单 品 组 合 来 作为 套餐 呢 ? 首先 ,能 想到 的 是 ,商品 被 点 量 最 高 的 前 儿 个 是 
可 以 加 入 套餐 的 。 这 就 是 一 种 频繁 项 集 的 思想 。 假 设 今天 上 午 的 销售 记录 如 下 
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图 8-1 肯德基 点 餐 图 


所 示 。 

(1) 汉堡 可乐 。 

(2) 汉堡 鸡翅 苗条 。 

(3) 苗条 鸡翅。 

(4) 汉堡 ,鸡翅 、 莫 条 、 可 乐 。 

我 们 会 发 现 昔 条 的 出 现 次 数 非常 频繁 ,在 4 次 交易 中 出 现 了 3 次 ,出 现 概率 为 
3/4=0.75。 那 么 在 苗条 出 现 的 组 合 里 ,鸡翅 最 多 。 此 时 读者 一 定 确信 把 汉堡 加 入 肯 
德 基 套餐 是 没有 问题 的 。 因 此 ,我 们 可 以 通过 找到 频繁 项 来 确定 制定 套餐 的 内 容 。 
当知 道 了 暮 条 一 定 是 可 以 加 入 套餐 的 ,那么 另 一 个 问题 来 了 ,读者 可 能 会 关心 ,如 果 
顾客 点 了 苗条 ,那么 接 下 来 他 会 点 什么 ? 能 跟 苗条 频繁 搭配 的 商品 有 哪些 ? 读者 现 
在 关心 的 问题 正 是 苗条 ->X。 这 样 的 规则 ,我 们 称 之 为 关联 规则 。 综 上 所 述 ,为 了 找 
到 合适 的 肯德基 套餐 制定 方案 ,需要 先 整理 一 些 交 易 记录 (数据 集 ) ,接着 需要 分 析 频 
繁 项 集 ( 比 如 上 述 的 苗条、 汉堡 ) ,最 后 根据 得 到 的 频繁 项 集 生成 关联 搭配 信息 (比如 
苗条 一 可 乐 ) ,最 后 恭喜 读者 ,套餐 制定 完成 了 。 这 样 一 种 思想 ,在 机 器 学 习 中 正 是 
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Apriori 的 思想 。 


8.1.2 科学 问题 


1. 相关 理论 


Apriori 算法 是 一 种 通过 频繁 项 集 来 挖掘 关联 规则 的 算法 。 既 可 以 发 现 频繁 项 
集 , 又 可 以 挖掘 物品 之 间 的 关联 规则 。 分 别 采 用 支持 度 和 置信 度 来 量化 频繁 项 集 以 
及 关联 规则 。 


2. 问题 定义 


定义 1: 支持 度 (Support) ,用 于 量化 频繁 项 集 。 事件 A 与 事件 也 同时 出 现 的 概 
率 ,表示 为 PLANB)。 揭 示 事件 集 {A,B) 的 频繁 程度 , 若 支 持 度 越 高 , 则 事件 集 {A， 
B} 越 频繁 。 


PCAN B) = 全 开交 次数 (8-1) 


定义 2: 量化 关联 规则 : 置信 度 (Confidence) 事 件 A 发 生 时 ,事件 B 发 生 的 概率 。 
揭示 事件 A 与 事件 B 的 关联 程度 , 若 置信 度 越 高 , 则 A 事件 发 生 ,也 事件 也 发 生 的 可 
能 性 越 大 。 


P(ANMB) Support(AB) 
P(A) Support(A) 


如 果 事 件 A 中 包含 个 元 素 ,那么 称 这 个 事件 A 为 k 项 集 , 并 且 事 件 A 满足 最 
小 支持 度 阔 值 的 事件 称 为 频繁 上 项 集 。 使 用 最 小 支持 度 a 和 最 小 置信 和 度 B8 来 进行 过 
滤 。 其 中 ,K 频繁 项 集 集合 表示 为 一 {A ,As ,A,}。 











P(B|A) (8-2) 


8.1.3 算法 流程 


1. 生成 频繁 项 集 
Apriori 算法 使 用 频繁 项 集 的 先 验 知识 ,使 用 一 种 称 作 逐 层 搜索 的 迭代 方法 ,项 





集 用 于 探索 (& 十 1) 项 集 。 具 体 流程 如 下 。 

(1) 扫描 商品 交易 记录 (条 目 ) , 找 出 所 有 长 度 为 1 的 集合 C, 并 筛选 出 满足 最 小 
支持 度 的 集合 记 作 工 。 

(2) 通过 Li 项 集 迭 代 生 成 工 + 项 集 , 直 到 所 有 Cr， 项 集 都 不 满足 最 小 支持 度 即 
Len 下 如 则 结束 迭代 。 

特别 注意 : 在 (2) 中 , 设 Le 长 度 为 N, 则 Le 项 集 的 备 选 个 数 为 CNY。Apriori 
算法 由 L; 生成 Le 主要 通过 连接 和 剪 枝 两 步 来 连接 并 减少 迭代 次 数 。 具 体 如 下 。 

(1) 连接 步 : 对 于 ,其 中 人 >1, 取 前 4 一 1 项 子 集 两 两 相 比 , 若 相 等 则 直接 合并 
两 项 。 例 如 工 :二 {{0,1) ,{0,2),{1,2)) ,对 其 生成 Cs 候选 集 进行 拼接 。 如 果 将 每 两 
个 集合 合并 , 则 会 得 到 {0,1,2}、{0,1,2) {0,1,2} 三 次 重复 结果 。 如 果 只 比较 集合 前 
k 一 1 项 子 集 , 即 第 一 个 元 素 相同 的 集合 进行 并 集 , 一 次 操作 则 生成 {10,1,2} ,减少 了 
大 量 不 必要 的 操作 。 

(2) 剪 枝 步 : 首先 ,给 出 性 质 1: 任 一 非 空 频繁 项 集 的 子 集 必 是 频繁 的 。 那 么 反 
之 , 任 一 非 频繁 项 集 的 超 集 也 是 非 频 繁 的 。 因 此 ,使 用 最 小 支持 度 来 过 滤 非 频繁 项 集 
能 够 提高 算法 的 效率 。 下 面 列举 说 明 , 实 际 应 用 。 

图 8-2 详细 介绍 候选 集 Cs 的 生成 过 程 : 连接 步 由 工 , 自 连 接生 成 的 元 素 不 重复 
集合 ,得 到 { {鸡翅 ,汉堡 \ 可 乐 }, {鸡翅 ,汉堡 、 草 条 ) , {鸡翅 、 可 乐 、 莫 条 }、{ 汉 堡 、 可 乐 、 
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图 8-2 ”频繁 项 集 生成 流程 图 





























薯 条) 。 已 知 阴影 项 集 { 鸡 翅 , 汉 堡 } 是 非 频繁 的 。 利 用 性 质 1, 含 有 {鸡翅 、 汉 堡 } 的 项 
集 也 都 是 非 频繁 的 。 则 可 以 将 Cs 中 的 { 鸡 起、 汉堡 .可乐 ){ 鸡 翅 ,汉堡 .苗条 } 删 除 得 
到 Ls 。 因 此 ,删除 { 鸡 翅 .汉堡 }) ,使 得 C,>L; ,这 样 就 不 用 再 计算 {鸡翅 、 汉 保 、 可 乐 } 、 
{ 鸡 翅 汉堡、 苗条 )、{ 鸡 翅 汉堡 .可乐 . 昔 条 } ,避免 了 项 集 数目 呈 指 数 增长 。 


2. 挖掘 关联 规则 


上 一 小 节 中 ,得 到 频繁 项 集 set 二 {Li,L;,…,Li)。 那 么 这 些 频 繁 项 集 内 部 的 元 
素 有 怎样 的 关系 呢 ? 例如 ,其 中 一 个 频繁 项 集 { 汉 堡 、 可 乐 }, 那 么 一 个 人 买 了 汉堡 再 
点 一 杯 可 乐 的 概率 多 大 ? 反之 , 买 了 可 乐 再 点 一 个 汉堡 的 可 能 性 又 有 多 大 ? 这 就 需 
要 挖掘 频繁 项 集 元 素 中 的 关联 规则 。8. 1. 2 节 中 提 到 置信 度 为 关联 规则 的 量化 方 
法 。 那 么 ,已 知 频繁 项 集 , 怎 么 挖掘 关联 规则 呢 ? 

从 一 个 频繁 项 集中 可 以 产生 多 少 条 关联 规则 ? 为 了 找到 有 趣 的 关联 规则 ,不 妨 
先生 成 一 个 包含 所 有 可 能 的 规则 表 , 如 果 测 试 规则 可 信 度 不 满足 最 小 要 求 , 则 去 掉 该 
规则 。 关 联 规则 产生 步骤 如 下 。 

(1) 对 于 每 个 频繁 项 集 item, 找 出 所 有 非 空 真 子 集 subset 。 

(2) 使 用 所 有 非 空 真子 集 生成 规则 可 能 集合 ,并 使 用 最 小 置信 度 min_conf 过 滤 
规则 。 

A 一 B 的 置信 度 为 : 

confidence(A ~ B) = P(B | A) = Support(AB)/Support(A) (8-3) 

因此 ,对 于 每 个 非 空 真子 集 subset, 如 果 

Confidence (subset) = Support(item)/Support(subset) 二 min_con{f (8-4) 

则 输出 subset> (item 一 subset)。 

如 图 8-3 所 示 , 假 设 { 鸡 起、 汉堡、 可 乐 、 莫 条} 是 其 中 一 项 频繁 项 集 ,对 其 挖掘 关 
联 规则 。 令 { 鸡 翅 .汉堡 可乐 .苗条 } 为 品 , 首 先 找到 U 的 所 有 非 空 子 集 subset, 再 根 
据 {{1U-subseti}->{subseti} } 推 出 所 有 规则 。 候 选 规则 的 过 滤 : 类 似 于 频繁 项 集 的 生 
成 ,图 中 阴影 规则 {{ 鸡 翅 .汉堡 ,可乐 } 一 { 昔 条 内 不 满足 最 小 支持 度 要 求 ,那么 所 有 右 
半 部 分 带 有 { 鞋 条 } 的 超 集 都 不 满足 最 小 支持 度 要 求 。 


用 YE [os 
1 
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图 8-3 关联 规则 生成 图 





































































































8.1.4 算法 描述 


算法 8-1 Apriori 算法 。 

输入 : 历史 集合 的 集合 record= {transi ,transz ,… ,transi}; 
初始 可 调 参数 最 小 支持 度 ,最 小 置信 度 B; 

1: 初始 化 工 为 空 

2: 扫描 record, 将 所 有 不 重复 元 素 v; 放 和 集合 Ci 中 

3: 证 C 非 空 then 





4: for wE Ci 一 1,2,…2 do 

5: 根据 公式 (1) 计 算 支 持 度 support 
: 证 support(w ) 一 a then 

7: 从 Ci 中 剔除 六 得 到 工 ， 


8: end if 
9: end for 





10: endif 


11: ”repeat 令 L 不 为 空 


ls 将 工 -拼接 为 C 

13: 检查 Ci 支持 度 满足 条 件 ,得 到 世 
1 k=k+1 

15: un 好 


16: forL,in Ldo 


17: for item in Lido 

18: 生成 其 非 空 子 集 ,拼接 规则 候选 表 R 
19: end for 

20: end for 


21: for rule in Ri do 
22: ”根据 公式 (2) 计 算 置 信 度 


23: if conf(rule) 一 8 then 
24: 将 rule 从 Re 中 剔除 
25: end if 

26: end for 


输出 : 频繁 项 集 工 三 (Li , 工 ,，…, 工 ,以 及 对 应 关联 规则 


@ 3.2 Apriori 算法 实现 


8.2.1 简介 


本 节 展 示 了 算法 实现 的 流程 图 和 核心 类 。 如 图 8-4 所 示 , 是 算法 实现 的 流程 , 包 
合算 法 实现 的 类 和 函数 。 
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图 8-4 算法 设计 流程 图 
表 8-1 所 示 为 算法 的 核心 类 及 其 描述 。 

表 8-1 类 名 称 及 类 描述 
类 名 称 类 描 述 





(描述 频繁 项 集 ) 

成 员 变量 : 

private ArrayList <String> cand; 。“”// 候 选项 集 
private double support; // 候 选项 集 支持 度 


FrequentSet 














Rule 


(描述 关联 规则 ) 

成 员 变量 : 

private ArrayList < String > cand; // 当 前 候选 项 
private ArrayList <String> left; // 规 则 左边 
private ArrayList <String > right; // 规 则 右边 
private double conf; // 置 信 度 





FreqSetGen 


(描述 频繁 项 集 生成 算法 ) 
public class FreqSetGen {…} 


函数 : 


/ ** 辅助 扫描 数据 集 函 数 * / 

private ArrayList < FrequentSet > scanData (ArrayList < FrequentSet > 
candidates, ArrayList <ArrayList <String>> dataSet) {…} 

/xx 生成 长 度 为 k+1 的 频繁 项 集 * / 

private ArrayList <FrequentSet > freqSetGen(ArrayList <FrequentSet > 
inputCand, int lenIk) {…} 





RulesGen 





(描述 关联 规则 生成 算法 ) 


/xx 关联 规则 生成 类 * / 
public class RulesGen {…} 


函数 : 


/x* 生成 候选 规则 * / 
private void rulesFormConseq(Rule rule) {…} 


8.2.2 核心 代码 


FreqSetGen 类 中 有 一 个 辅助 扫描 函数 方法 ,具体 如 下 。 
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1 / xx 

2 * 根据 最 小 支持 度 过 滤 频 繁 项 集 

3 * @param candidates 候选 集 

4 * @param dataSet 数据 集 

5 * @return 

6 */ 

7 private RrrayList < FrequentSet > scanData ( ArrayList < FrequentSet > 

candidates, ArrayList <ArrayList <String>> dataSet) { 

8 ArrayList <FrequentSet > cand = new ArrayList <FrequentSet >(); 

9 for (int j=0; j <candidates. size(); j++) { 

10 candidates. get(j).calcSupport(dataSet); 

Ts if (candidates. get (j). getSupport ( ) > Configuration. MIN_ 
SUPPORT) { 

12 cand. add(candidates. get(j)); 

FE] , 

14 } 

15 return cand; 

16 } 


在 构造 C, 时 对 数据 集 生成 不 重复 的 元 素 集合 。 
FreqSetGen 类 中 有 一 个 函数 是 生成 频繁 项 集 L 的 代码 ,其 具体 如 下 。 


/a#x 
* 生成 长 度 为 k+ 1 的 候选 项 集 
* @param inputCand 第 k 次 
* @param lenLk k+1 
* @return 
*/ 
private RrrayList < FrequentSet > freqSetGen (ArrayList < FrequentSet > 
inputCand, int lenIk) { 
ArrayList <FrequentSet > retList = new ArrayList <FrequentSet >(); 
for (int i=0; i< inputCand. size(); i++) { 
10 List <String> tempL1 = new ArrayList <String>(); 
11 List < String > tempL2 = new ArrayList <String>(); 


aue wm 


wo 





for (int j=i+1; j<inputCand.size(); j++) { 
// 如 果 不 是 I1 
if (lenLk>2) { 
FrequentSet cl = inputCand. get(i); 


FrequentSet c2 = inputCand. get(j); 


tempL1 = c1. getCand(). subList(0，lenIk - 2); 
tempL2 = c2. getCand(). subList(0, lenLk - 2); 
if(MgorithmUtil. compare( tempL1l, tempL2)){ 


// 取 交集 


ArrayList <String> temp = new ArrayList < String >(); 


temp. addAll(c1. getCand( )); 
temp. addAll (c2. getCand( ). 


subList(lenIk - 2, c2.getCand(). size())); 
FrequentSet cand = new FrequentSet(); 


cand. setCand( temp); 
retList. add(cand); 
1 
Jelse { 
// 如 果 为 [1, 则 直接 两 两 拼接 


RrrayList<String > L2 = new ArrayList < String >(); 
L2.add( inputCand. get (i). getCand().get(0)); 
L2.add( inputCand. get(j).getCand().get(0)); 


FrequentSet cand2 = new FrequentSet( ); 
cand2. setCand(L2) ; 
retbist.add(cand2); 


. 


return retList; 
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RulesGen 类 中 有 一 个 生成 候选 规则 方法 ,具体 如 下 。 


1 /xx 

2 * 生成 关联 规则 

3 * @param dataSet 数据 集 

4 */ 

号 public void generateRules(ArrayList <ArrayList <String>> dataSet) { 
6 // 得 到 初始 规则 

ArrayList <Rule> rules = new ArrayList <Rule>(); 

8 for (int i=0; i<candidates. size(); i++) { 

9 ArrayList <String > cand= candidates. get(i). getCand(); 
10 Rule rule= convertToRule( cand, new ArrayList <String >()); 
11 rules.add(rule); 

12 } 

13 // 生 成 规则 保存 在 bigList 中 

14 for (int i=0; i< rules. size(); i++) { 

15 if(rules. get(i).getLeft().size() >=2) { 

16 rulesFormConseq( rules. get (i), dataSet); 

ty) 1 

18 } 

19 } 


仿 3.3 实验 数据 


实验 数据 来 自 于 Roberto Bayardo 对 UCI 蘑菇 数据 的 解析 ,将 每 个 蘑菇 样本 转 
换 为 一 个 特征 集合 ,将 每 个 样本 对 应 的 特征 值 转换 成 数值 数据 。Frequent Itemset 
Mining Dataset Repository 下 载 地 址 为 : http://fimi. ua. ac. be/data/ 。 

数据 描述 : 该 数据 集 包括 23 种 肋 形 蘑菇 的 样品 的 描述 ,每 个 物种 被 确定 为 绝对 
可 食用 ,绝对 有 毒 ,或 具有 未 知 的 可 食性 ,不 推荐 。 指 南明 确 指出 ,没有 特定 的 规则 能 
够 完全 确定 蘑菇 是 否 可 以 食用 。 具 体 特征 描述 参见 UCI 蘑菇 数据 网 站 : http:// 


archive. ics. uci. edu/ml/datasets/mushroom 。 
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人 @ 3.4 实验 结果 


8.4.1 结果 展示 


当 最 小 支持 度 为 0. 5, 最 小 置信 度 为 0.7 时 ,结果 如 表 8-2 所 示 。 
表 8-2 最 小 支持 度 为 0.5, 最 小 置信 度 为 0.7 时 的 频繁 项 集 

































































到 L, L; L, 
{34,36,} {34,36,59,} {34,36,59,85,) | {34,36,59,85,86,}) 
{34,59,} {34,36,85,} {34,36,59,86,} | {34,36,85,86,90,} 
{34,63,} {34,36,86,} {34,36,85,86,) | {34,36,85,86,39,} 
{34,67,} {34,36,90,} {34,36,85,90,) | {34,59,85,86,90,} 
{34,76,} {34,36,39,} {34,36,85,39,} | {34,63,85,86,90,} 
{34,85,} {34,59,85,} {34,36,86,90,) | {34,85,86,90,39,} 
{34,86,) {34,59,86,} {34,36,86,39,} | {34,85,86,90,24,) 
{34,90,) {34,59,90,} {34,59,85,86,) | {34,85,86,90,53,} 

生成 部 分 规则 如 表 8-3 所 示 。 
表 8-3 部 分 生成 规则 
1 项 一 2 项 2 项 一 1 项 1 项 一 3 项 2 项 -~2 项 
36—>3459 3686->34 90->856 334 3485-9063 
34—>3659 3486->36 34->856 390 8690—>3463 
34—3685 3436—86 34—>859 063 8690—>6334 
36—>5934 3690->34 85—>903 463 3490—>6386 
34—>5936 3490—>36 90->346 386 3486—>6390 
36->8534 3436->39 85->906 334 3490->8663 
85—>3436 3485->59 34->906 385 3486—>9063 
36—>3485 3486->59 34->908 563 8586—>3467 
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8.4.2 结果 分 析 


data/mushroom. txt 下 第 一 列 中 1 为 可 食用 ,2 为 有 毒 。2 一 23 分 别 表示 蘑菇 的 
外 部 特征 。8. 4. 1 节 中 结果 展示 了 在 支持 度 为 0. 5 的 情况 下 生成 的 频繁 项 集 集合 。 
例如 频繁 项 集 {34,36} ,表明 蘑菇 拥有 特征 34 时 ,通常 也 拥有 特征 36( 具 体 特征 说 明 
见 UCI 毒 蘑菇 数据 集 介绍 ) 。 

实验 证 明 ,Apriori 算法 能 够 对 标 称 型 数据 或 数值 型 数据 生成 频繁 项 集 , 并 生成 
对 应 关联 规则 。 但 是 随 着 基础 样本 空间 ( 即 不 重复 元 素 个 数 ) 的 增加 , Apriori 生成 的 
总 样本 空间 (基础 样本 空间 生成 的 全 组 合 ) 呈 指数 级 增长 ,因此 ,Apriori 的 运行 效率 
会 大 大 下 降 , 运 行 速度 缓慢 。 
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@ 9.1 PageRank 算法 原理 


如 何在 一 个 有 向 图 中 给 每 个 点 的 重要 性 打 个 分 ,就 比如 给 互联 网 上 各 个 网 页 打 
分 确定 重要 性 ,这 时 超 链接 就 是 边 ,网 页 就 是 图 中 的 点 。 被 指向 多 的 点 ,也 就 是 入 度 
大 的 点 必定 更 重要 。 但 是 网 页 构成 的 图 一 般 都 是 循环 图 ,用 普通 的 图 遍历 方式 来 统 
计 入 度 会 陷入 无 休止 的 循环 中 。PageRank 的 思路 就 是 一 次 又 一 次 地 全 体 更 新 (转移 
矩阵 县 乘 ), 直 到 收敛 到 一 个 合适 的 范围 为 止 。PageRank 的 计算 迭代 方式 多 种 多 样 
(各 种 各 样 的 近代 算法 、 误 差 函 数 和 阅 值 定 法 ,各 种 冠 上 随机 游 走 之 名 的 图 迭代 
rank) ,形变 神 不 变 。 

如 果 读者 对 大 学 时 学 的 线性 代数 和 矩阵 分 析 等 知识 还 有 印象 的 话 , 可 能 会 发 现 
PageRank 的 计算 过 程 不 就 是 用 军 方 法 来 求 链接 矩阵 的 主 特征 向 量 ( 最 大 特征 值 对 应 
的 特征 向 量 ) 吗 ? 是 的 ,其 实 链接 矩阵 主 特征 向 量 中 的 元 素 正 是 各 个 节点 的 
了 PageRank 值 。 为 什么 会 是 这 样 ? 其 实 也 不 难 理解 ,PageRank 和 主 成 分 分 析 (PCA) 
如 出 一 竹 。 对 于 一 个 N 个 节点 的 网 络 来 说 ,连接 矩阵 A 可 以 看 作 是 N 维 线性 空间 
上 的 NN 个 向 量 ,每 个 向 量 表示 一 个 节点 与 其 他 节点 之 间 的 连接 关系 。 显 然 ,这 样 的 
连接 关系 非常 复杂 ,难以 理 清 。 但 如 果 我 们 能 抓 住 其 主要 方面 ,让 连接 关系 能 体现 在 
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一 个 主要 变量 上 ,问题 就 迎刃而解 了 。 连 接 和 矩阵 主 特征 向 量 正 是 我 们 要 寻找 的 这 个 
关键 变量 ,其 代表 了 连接 关系 的 最 主要 方向 (成 分 ) ,也 最 能 反映 连接 关系 的 本 质 。 对 
于 小 规模 的 矩阵 来 说 , 主 特征 向 量 可 以 通过 特征 分 解 来 求 得 。 然 而 ,PageRank 所 处 
理 的 网 络 数据 ,往往 具有 百 万 以 上 的 维度 。 特 征 分 解 过 程 中 需要 对 甜 阵 求 逆 ,其 计算 
代价 过 于 庞大 。PageRank 利用 军 方 法 来 求 特征 向 量 大 大 提高 了 计算 效率 。 


9.1.1 PageRank 算法 引入 


为 了 更 好 地 理解 PageRank, 下 面 从 一 个 简单 的 例子 出 发 。 如 图 9-1 所 示 ,小 明 在 
不 认识 B 和 DD 的 情况 下 ,如 何 判断 B 和 D 谁 的 信用 更 高 呢 ? 从 图 中 可 知 ,A 和 C 是 
小 明 的 朋友 , 且 C 信用 度 好 而 A 信用 度 不 好 ,按照 生活 经 验 小 明 会 觉得 D 的 信用 度 
会 更 高 。 在 这 个 案例 中 , 当 你 认识 的 朋友 信誉 度 都 高 的 时 候 , 不 依靠 其 他 判断 条 件 ， 
你 的 信誉 度 也 会 高 ,反之 亦 然 , 这 也 是 PageRank 算法 的 一 个 特性 。 


到 
i 


小 明 
图 9-1 好 友 关系 图 


生活 中 关于 PageRank 算法 的 应 用 有 很 多 ,最 常见 的 就 是 网 页 排序 。 当 在 搜索 引 
擎 中 输入 想 要 查找 的 内 容 时 ,搜索 引擎 返回 一 些 地 址 链接 。 这 些 搜索 结果 的 前 几 页 ， 
甚至 是 前 几 个 就 能 满足 我 们 的 搜索 需求 ,而 且 这 些 给 出 的 靠 前 的 网 页 地 址 ,也 是 相对 
来 说 比较 具有 权威 性 的 地 址 链接 。 那 么 我 们 就 会 不 禁 自 问 : 这 么 多 相关 的 网 页 链 
接 , 搜 索引 擎 是 根据 什么 来 决定 这 些 网 页 的 前 后 顺序 的 呢 ? 
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在 互联 网 发 展 的 初期 ,整个 互联 网 中 的 网 页 是 相对 有 限 的 ,所 以 ,就 有 相关 的 人 
专门 来 对 一 些 网 页 进行 人 工 的 分 类 和 一 些 权 威 性 的 估 值 。 慢 慢 地 ,人 们 发 现 采用 人 
工 的 方式 是 特别 不 明智 的 ,因为 随 着 网 页 的 数量 越 来 越 多 ,付出 的 人 力 是 巨大 的 ,而 
且 人 为 评定 是 存在 一 些 争议 和 不 公平 性 的 。 后 来 ,人 们 就 根据 用 户 搜索 的 关键 字 与 
网 页 的 相关 程度 来 返回 网 页 链接 的 排名 ,这 个 方式 流行 并 使 用 了 一 段 时 间 后 ,相关 设 
计 人 员 又 发 现 , 相 关 度 的 计算 是 一 个 时 间 和 空间 都 较 大 的 方法 ,而 且 会 随 着 网 页 的 越 
来 越 多 变 得 越发 困难 ,甚至 影响 到 了 用 户 体 验 。 另 一 方面 ,有 的 网 页 设计 人 员 掌 握 了 
这 种 排序 方法 之 后 ,故意 在 自己 的 网 页 中 添加 很 多 相关 的 关键 字 , 以 达到 让 自己 的 网 
页 和 很 多 关键 字 相关 度 高 的 效果 ,这 是 一 种 投机 取 巧 的 方式 ,也 给 网 页 排名 带 来 了 一 
定 的 困境 。 

后 来 ,在 斯 坦 福 大 学 读 研究 生 的 Larry Page 和 Sergey Brin 开始 设计 一 个 搜索 引 
擎 一 一 Google。 他 们 充分 意识 到 了 上 述 问题 ,而 且 想 让 自己 的 搜索 引擎 在 网 页 排序 
方面 得 到 比 传统 方法 更 具有 优势 的 返回 结果 。 他 们 在 研究 过 程 中 发 现 ,一些 具 有 权 
威 性 的 网 站 跳 转 的 链接 也 是 比较 具有 权威 性 的 ,比如 ,斯 坦 福 大 学 的 校园 官网 就 有 跳 
转 到 斯 坦 福 各 个 学 院 和 图 书馆 这 样 的 链接 。 也 有 一 些 非 权威 性 的 网 站 的 跳 转 链接 既 
包括 权威 性 的 ,也 包括 非 权 威 性 的 ,从 观察 者 的 角度 来 说 ,这 些 非 权 威 性 的 网 站 跳 转 
到 非 权 威 性 的 网 站 ,并 没有 给 跳 转 后 的 网 页 增加 多 少 流量 和 权威 ,而 非 权 威 性 的 网 站 
跳 转 到 权威 性 的 网 站 也 并 没有 给 后 者 的 网 页 带 来 多 少 浏览 量 和 知名 度 。 然 而 ,如 果 
一 个 网 页 链接 被 一 个 具有 权威 性 的 网 站 跳 转 ,那么 这 个 网 页 的 权威 性 也 随 之 提升 。 

Google 的 两 位 创始 人 Larry Page 和 Sergey Brin 就 是 通过 这 样 一 个 原理 设计 出 
了 PageRank 算法 。PageRank 算法 的 核心 思想 比较 容易 理解 ,主要 是 以 下 两 点 : 
中 如 果 一 个 网 页 被 其 他 很 多 网 页 链接 ,那么 这 个 网 页 相对 于 整个 网 络 来 说 ,具有 比较 
靠 前 的 排名 位 置 ; @ 如 果 一 些 具 有 比较 靠 前 排名 的 网 页 链接 到 另 一 个 网 页 ,那么 被 
链接 的 那个 网 络 的 排名 也 会 相应 靠 前 。 正 是 由 于 PageRank 算法 的 这 两 个 核心 思想 
让 搜索 引擎 的 搜索 质量 迅速 提升 ,应 对 了 后 来 互联 网 网 页 的 爆炸 式 增长 。 现 在 针对 
网 页 搜索 排名 的 算法 越 来 越 多 ,效果 也 越 来 越 好 。 当 时 ,PageRank 算法 的 提出 ,打破 
了 网 页 搜索 排名 这 个 问题 的 瓶颈 ,也 是 使 Google 成 为 全 球 著 名 搜索 引擎 的 主要 推力 
和 重要 功臣 。 
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9.1.2 科学 问题 


现在 ,我 们 已 经 知道 了 PageRank 算法 的 核心 思想 : 如 果 一 个 网 页 被 其 他 很 多 网 
页 链接 ,那么 这 个 网 页 相对 于 整个 网 络 来 说 ,具有 比较 靠 前 的 排名 位 置 ; 如 果 一 些 具 
有 比较 靠 前 排名 的 网 页 链接 到 另 一 个 网 页 ,那么 被 链接 的 那个 网 络 的 排名 也 会 相应 
靠 前 。 本 节 还 以 网 页 权威 性 和 重要 性 排名 为 例 , 来 介绍 一 些 基础 的 相关 理论 和 
PageRank 算法 的 问题 定义 。 


1. 相关 理论 


在 正式 介绍 PageRank 算法 之 前 ,需要 先 介绍 图 论 的 一 些 基 础 知识 。 如 图 9-2 所 
示 , 图 中 总 共有 4 个 节点 : A,B,C 和 DD ,它们 的 关系 网 络 如 图 所 示 。 这 种 关系 网 络 就 
等 同 于 网 页 链接 关系 中 的 A 网 页 链接 到 了 B 网 页 和 DD 网 页 ,D 网 页 链接 到 了 A 网 页 
和 B 网页。 





图 9-2 节点 关系 网 络 图 


图 论 中 定义 一 个 节点 的 入 度 为 指向 该 节点 的 边 数 ,如 图 中 A 的 入 度 为 1,B 的 入 
度 为 2。 在 本 书 中 ,定义 (wv) 三 {指向 vi 的 节点 }。 如 图 中 TC(w) 二 {vp} ,TICva) 一 
{va svp) ,11(v;) | 定义 为 节点 vi 的 人 度 。 图 论 中 ,一 个 节点 的 出 度 定义 为 指向 其 他 节 
点 的 边 数 ,如 图 中 人 A 的 出 度 为 2, 忆 的 出 度 为 1。 本 书 中 ,定义 O(vi) 一 {w 指向 其 他 节 
点 ) 。 如 图 中 OCwa) 二 {vssvp) ,Ovs) 二 {vc} ,1OCw) | 定义 为 节点 v; 的 出 度 。 


2. 问题 定义 


输入 : 输入 由 两 部 分 组 成 。 一 个 是 V 二 {vi) ,i 二 1,2,…,n ,vi 表示 第 i 个 节点 ， 
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总 共用 个 节点 ; 另 一 个 是 EE 二 {e635) ,i,j 二 1,2,…,n ,es 表示 vi 节点 有 跳 转 到 vw 节 
点 的 链接 。 

输出 : 输出 为 PR={pri) ,i 二 1,2,…,n,pri 表示 vi 节点 的 pr 值 , 即 权威 性 或 者 
说 重要 性 的 度量 值 。 

问题 定义 : 输入 一 个 关系 网 络 G= {V,EE) ,怎样 度量 关系 网 络 中 每 个 节点 的 重 
要 性 ? 


9.1.3 算法 流程 


为 了 解决 这 个 科学 问题 PageRank 算法 对 每 个 节点 初始 化 一 个 pr 值 ,该 pr 的 
大 小 代表 了 节点 的 重要 性 的 度量 值 ,该 值 越 大 表示 该 节点 越权 威 , 越 重要 。 反 之 , 表 
示 权 威 性 越 低 。 

首先 ,初始 化 所 有 网 页 的 pr 值 , 考 虑 用 户 随机 访问 每 个 网 页 的 概率 一 样 大 ,整个 


网 络 中 共有 nn 个 网 页 ,PageRank 算法 初始 化 每 个 节点 的 pr 值 为 二 。 然后 ,根据 网 络 


结构 关系 图 来 更 新 每 个 网 页 的 pr 值 。 最 后 ,根据 收敛 条 件 结束 更 新 ,输出 每 个 网 页 
的 pr 值 并 依据 大 小 排序 。 

更 新 的 规则 来 自 PageRank 算法 的 核心 思想 : 如 果 一 个 网 页 被 其 他 很 多 网 页 链 
接 , 那 么 这 个 网 页 相对 于 整个 网 络 来 说 ,具有 比较 靠 前 的 排名 位 置 ; 如 果 一 些 具 有 比 
较 靠 前 排名 的 网 页 链接 到 另 一 个 网 页 ,那么 被 链接 的 那个 网 络 的 排名 也 会 相应 靠 前 。 
为 了 更 好 地 说 明 , 我 们 用 如 图 9-3 所 示 的 网 页 链接 关系 为 例 来 说 明 整个 更 新 过 程 。 

其 中 ,网 页 A 的 pr 值 是 根据 链接 到 该 网 页 的 所 有 网 页 的 pr 值得 到 的 ,其 具体 公 
式 如 下 : 

PR(wA) = PR(vp) eo-1y 
而 网 页 节点 D 总 共有 4 个 跳 转 的 链接 ,所 以 从 D 网 页 跳 转 到 A 网 页 的 概率 是 


证 ,所 以 进一步 将 式 (9-1) 修 改 为 ， 


PRCw) = PR 


(9-2) 
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9-3 网 页 链接 关系 网 络 


需要 注意 到 的 一 个 地 方 是 ,TI(ve) 一 { 指 向 va 的 节点 集合 } ,该 集合 中 ,不 包括 va。 
所 以 ,在 计算 B 的 pr 值 时 ,用 下 式 计 算 ， 
PR(va) , PR(vDp) 
一 


PR(vs) = (9-3) 


不 包括 指向 自己 网 页 的 链接 ,这 是 为 了 公平 性 ,防止 某 些 恶意 设计 。 同 时 ,还 为 
了 公平 性 和 实用 性 ,在 现实 生活 中 ,用 户 浏览 一 个 没有 出 度 的 网 页 链接 时 ,不 会 由 于 
该 网 页 没有 指向 其 他 网 页 的 链接 就 不 跳 转 , 而 是 有 可 能 跳 转 到 互联 网 中 任意 一 个 网 
页 ,所 以 会 在 每 个 计算 网 页 节点 的 pr 值 后 再 加 上 一 个 二 。 如 计算 A 的 pr 值 如 下 式 
所 示 : 
1 


二 至 (9-4) 
n 


PR = Ee 


另 一 方面 为 了 权衡 随意 跳 转 和 根据 当前 网 页 跳 转 的 随机 性 ,PageRank 算法 在 这 
两 个 部 分 前 面 加 上 一 个 系数 a。 所 以 每 个 节点 的 更 新 公式 如 下 : 


PR* (vw,) 1 
PR (vw,) - (1 ) (9-5 
“2 TO 二 一 


其 中 , 是 可 调 参数 ,I(w) 是 指向 网 页 节点 vw; 的 网 页 集合 ,|1O(Cw;) | 是 网 页 节点 的 
出 度 ,PR**! 是 第 k 十 1 次 迭代 后 的 PR 值 。 
收敛 条 件 有 和 多 种 方式 ,常用 的 方式 是 根据 所 有 网 页 节点 迭代 前 后 pr 值 的 变化 值 
小 于 预先 设 定 的 阔 值 。 其 数学 表达 式 如 下 
TER — PR |<e (9-6) 
其 中 ,PR**'! 表 示 第 十 1 次 迭代 后 的 PR 值 矩 阵 ,s 是 预先 设 定 的 阔 值 。 本 文中 
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|PR 汪 一 PR“| 是 迭代 前 后 两 次 所 有 节点 pr 值 之 差 的 绝对 值 和 ,更 详细 的 定义 
如 下 。 


|PR* —PRi|s 2 | pew) — pew) | (9-7) 


9.1.4 算法 描述 
由 此 ,可 以 得 到 PageRank 算法 的 伪 代 码 如 下 。 


算法 9-1 PageRank 算法 。 

输入 : 节点 网 络 G=(V,E); 
初始 可 调 参 数 a; 

过 程 : 

1: 初始 化 网 页 关系 网 络 





2 初始 化 每 个 网 页 节点 的 PR 值 为 二 


3: repeat 

4: for v: EV ,i=1,2,",n 

5: 根据 公式 (9-5) 计 算 PR(w;) 值 
6: end for 


7: until 根据 公式 (9-6) 判 断 收敛 
输出 : 更 新 收敛 后 的 PR 矩阵 , 即 每 个 网 页 的 PR 值 。 


从 伪 代 码 中 可 看 出 ,进行 PageRank 算法 计算 时 ,首先 ,初始 化 网 页 关系 网 络 和 所 
有 网 页 的 pr 值 为 十。 然后 ,根据 网 络 结构 关系 图 来 更 新 每 个 网 页 的 pr 值 。 最 后 , 根 
据 收敛 条 件 结束 更 新 ,输出 每 个 网 页 的 pr 值 。 





@ 9.2 PageRank 算法 实现 


9.2.1 简介 
首先 用 一 个 图 来 描述 该 算法 的 整个 运行 过 程 涉及 类 和 方法 ,如 图 9-4 所 示 。 


nCla PageRank 


main() 1 loadData 
a initialNetwork 


入 口 函 数 一 数据 恋 取 
= 创建 网 络 结构 “| 上 初始 化 








initialNodeValue 
初始 化 节点 pr 值 
| OR 
1 
updatePageRank 
更 新 pr 值 
引 
1 
isCoverage() 
判断 是 否 收敛 7 
$i 
updateNodePR 
更 新 每 个 节点 的 PR| ~ | 


函数 
核心 算法 





9 writeData 一 轴 助 操作 输出 结果 
结果 存储 --- 核 心算 法 




















图 9-4 算法 设计 流程 图 


分 为 三 个 阶段 ,首先 初始 化 , 读 取 数据 ; 然后 ,运行 PageRank 算法 , 即 核心 算法 ; 
最 后 输出 结果 。PageRank 算法 是 用 Java 实现 的 ,主要 分 为 如 表 9-1 所 示 的 几 个 
对 象 。 





表 9-1 类 名 称 及 类 描述 














类 名 类 描 述 

(描述 两 个 网 页 的 链接 关系 ) 
成 员 变 量 : 

WebLink // 由 fromLink 链接 到 toLink 
protected String frombink; //Web ID 
protected String toLink; //Web ID 
(描述 网 络 关系 中 的 节点 ) 
成 员 变量 : 
protected String webName; // 网 页 id 
protected double currentPR; // 当 前 迭代 次 数 对 应 的 pr 值 
protected double lastPR; // 当 前 迭代 次 数 一 1 对 应 的 pr 值 

i protected int iterationNO; // 当 前 迭代 次 数 

i protected List <Node> outLink; 。 。 // 该 节点 的 指向 节点 集合 

protected List < Node > inLink; // 指 向 该 节点 的 节点 集合 
函数 : 
/ xx 更 新 一 个 节点 的 pr 值 * / 
public boolean updateNodePR( int iterationNum, int count) {…} 
(描述 节点 的 网 络 关系 ) 
public class Network extends HashMap < String, Node >{…} 

Network 函数 ;: 
/x** 初始 化 网 络 ,根据 链接 关系 来 建立 网 络 * / 
public void initialNetwork(List <WebLink > data){ …} 
(描述 PageRank 算法 ) 
成 员 变量 : 

PageRank 





protected Network network; // 网 络 结构 关系 


函数 : 
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类 描 述 





PageRank 





/** 初始 化 节点 pr 值 : 1/n */ 
public void initialNodeVale(){…} 


/ ** 一 次 迭代 更 新 所 有 节点 的 pr 值 */ 


public void onceIteration( int iteration num){…} 


/xx 更 新 pagerank #*/ 
public void updatePageRank( ){ …} 


/*+# 判断 算法 是 否 收敛 
* 判断 方式 : 所 有 节点 pr 值 更 新 前 后 两 次 的 差 值 < 收敛 参数 * / 
publ ic boolean isCoverage(){…} 


WebLink 主要 用 来 描述 数据 ,数据 是 指 一 个 网 页 链接 到 另 一 个 网 页 。 所 以 在 代 
码 中 ,用 WebLink 类 来 描述 这 种 链接 关系 。Node 类 描述 网 络 结构 中 的 节点 ,节点 包 
括 网 页 id、 当 前 迭代 次 数 、pr 值 \ 出 链 集合 和 入 链 集合 ,函数 包括 更 新 该 节点 的 pr 值 
的 方法 。Network 类 用 来 描述 网 络 结构 关系 ,该 类 继承 HashMap 二 String, Node>， 
String 存储 网 页 id, Node 是 该 网 页 的 节点 类 ,函数 有 初始 化 网 络 方法 ,之 所 以 用 
HashMap 来 存 是 因为 在 更 新 pr 值 的 过 程 中 ,需要 从 众多 的 网 页 中 取出 对 应 的 节点 ， 
而 HashMap 的 查找 速度 是 较 快 的 。PageRank 类 描述 了 PageRank 算法 ,成 员 变量 
包括 初始 的 一 些 参 数 和 Network 网 络 结构 ,函数 包括 : 初始 化 所 有 节点 初始 值 ,一 次 
迭代 更 新 所 有 节点 的 pr 值 ,更 新 PageRank 值 , 是 否 收敛 等 函数 。 


9.2.2 核心 代码 


在 介绍 核心 代码 前 , 先 从 main() 函数 看 起 ,了 解 整 个 算法 过 程 。 具体 如 下 。 
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1 //1. 获 取 数 据 

2 List<WebLink> data=FileOperate. loadData(Configuration.DAIA PATH,"\t"); 
3 ”//2. 初 始 化 网 络 结构 

4 Network network = new Network( ); 

5 ”network. initialNetwork(data) ;// 初 始 网 页 结构 

6 ”//3. 运 行 PageRank 算 法 

7 PageRank pagerank = new PageRank(network); 

8 ”pagerank. initialNodeVale();// 初 始 网 页 节点 初 值 为 1/n(n 为 网 页 节点 总 数 ) 
9 ”pagerank. updatePageRank();// 更 新 pr 值 直至 收敛 

10 ”//4. 结 果 展 示 和 存储 ,展示 top k 个 数据 的 pr 值 

11 FileOperate.writeData(network, Configuration.RESULT PATH); 

12 pagerank. showTopKPR(Configuration.TOP K) ; 


首先 获取 数据 ,其 次 初始 化 网 络 结构 ,Network 类 中 有 一 个 初始 化 网 络 结构 的 方 
法 ,具体 如 下 。 


1 ” /xx 初始 化 网 络 ,根据 链接 关系 来 建立 网 络 

* @param data 数据 : 网 页 链接 

3 */ 

4 public void initialNetwork(List <WebLink > data){ 

5 for(int i=0 ; i<data. size(); i++){// 添 加 节点 
6 WebLink weblink = data. get (i); 

了 String fromLink = weblink. getFrombink( ) ; 

8 String toLink = weblink. getToLink( ); 

9 if(!this. containsKey( fromLink)){ 

10 this. put(fromLink，new Node(fromLink) ) ; 
Ly } 

Ep Node fromNode = this. get( frombink); 

3 if(!this. containsKey( toLink) ){ 

14 this. put (toLink, new Node(toLink)); 

15 } 

16 Node toNode = this. get (toLink); 

eb fromNode. addOutLink(toNode); 

18 toNode. addInLink( fromNode); 

19 } 
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在 Network 中 加 入 节点 时 ,通过 Network 类 继承 的 HashMap 一 String,Node 二 





特性 ,首先 判断 在 Network 中 是 否 有 该 网 页 id 建立 的 node 节点 ,然后 根据 链接 关系 
来 添加 出 入 链接 集合 。 

初始 化 网 络 结构 后 ,开始 运行 PageRank 算法 , 先 初始 化 所 有 节点 的 pr 值 ,具体 
代码 如 下 。 

2 /xx 初始 化 节点 pr 值 : 1/n */ 

2 public void initialNodeVale(){ 

3 double first_value=1.0 / network. getCount(); 

4 for(Map. Entry < String, Node> entry: network.entrySet()){ 

3 Node node = entry. getValue(); 

6 node. setCurrentPR(first_value); 

7 } 

8 ; 


其 中 ,initialNodeVale() 方 法 是 初始 化 网 络 所 有 节点 的 pr 值 ,全 部 初始 设置 为 1/n,n 
为 网 络 中 节点 总 数 。 更 新 PageRank 值 的 具体 代码 如 下 。 


auwmewnb 


/x+ 更 新 PageRank * / 
public void updatePageRank( ){ 
int iteration_count = 1; 
this. onceIteration(iteration_count); 
iteration_count++; 
// 如 果 PF 更 新 收敛 或 者 达到 设置 的 最 大 和 迭代 次 数 , 就 跳出 循环 更 新 
while(!this. isCoverage() && iteration count <= Configuration. ITERATION 
_MRXNUM){ 
// 一 次 选 代 更 新 所 有 节点 的 pr 值 
this. onceIteration(iteration_count); 
iteration count++; 


y 
/#x 一 次 迭代 更 新 所 有 节点 的 pr 值 


x @param iteration num 迭代 的 次 数 */ 
public void onceIteration(int iteration pum){ 
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17 for(Map. Entry < String, Node> entry: network.entrySet()){ 
18 Node node = entry. getValue( ) ; 

19 // 更 新 一 个 节点 的 pr 值 

20 node. updateNodePR( iteration num, network.getCount()); 
2 ’ 

-| 


updatePageRank() 滑 数 调用 了 oncelteration( ) 卫 数 ,用 while 来 控制 更 新 过 程 ， 
若 收 敛 或 迭代 次 数 达 到 设置 的 最 大 迭代 次 数 就 跳出 更 新 过 程 。 判 断 收敛 的 代码 具体 
如 下 。 


1 /xx 判断 算法 是 否 收敛 

2 * 判断 方式 : 所 有 节点 pr 值 更 新 前 后 两 次 的 差 值 < 收敛 参数 

人 # @return */ 

4 public boolean isCoverage(){ 

5 double diff = 0.0; 

6 for(Map. Entry< String，Node > entry: network.entrySet()){ 
时 Node node = entry. getValue(); 

8 diff += Math. abs(node. getLast_pr() — node. getCurrent_pr()); 
9 1 

10 if(Math. abs(diff) > this. coverage_value) 

11 return false; 

12 else 

tk] return true; 

1 


Node 类 中 有 一 个 函数 是 更 新 一 个 节点 PR 值 的 代码 ,oncelteration( ) 函数 会 调 
用 该 方法 ,其 具体 如 下 。 


/xx 更 新 一 个 节点 的 pr 值 
* @param iteration_num 当前 迭代 次 数 
* @paran alph alph 值 
* @paran count 网 络 总 节点 数 
x @return*/ 
public boolean updateNodePR( int iteration_num, double alph, int count){ 


au we wb 





yA if(iteration pum <=0 | alph<0 | count <=0) 


8 return false; 

9 else{ 

10 double update pr = (1 - alph)/count; 

i double temp= 0.0; 

12 for(Node node_pi: this. in link){ 

13 int pi_iter NO= node pi. getIteration NO(); 
14 int pi_out link NO= node pi.out link. size(); 
5 double pi_ last_pr=0.0; 

16 

17 if(pi_iter_NO — iteration pum== 0){ 

18 pi_last_ pr = node pi.getCurrent pr(); 
19 Jelse if(pi_iter NO — iteration num==1){ 
20 pi last pr= node pi.getLast pr(); 

21 } 

22 temp+= pi_last_pr / pi_out_link_NO; 

23 

24 update pr +=alph * temp; 

25 this. setCurrent_pr(update_pr) ;// 更 新 存储 pr 值 
26 return true; 

27 } 

28 3} 


此 处 描述 了 公式 (9-5) ,在 Node 类 中 有 一 个 成 员 变量 iterationNO 来 描述 该 节点 
更 新 的 迭代 次 数 ,所 以 我 们 需要 将 PageRank 算法 的 迭代 次 数 和 该 节点 的 迭代 次 数 进 
行 比 对 ,来 决定 取 哪 个 PR 值 。 


9.3 实验 数据 


本 章 实验 所 用 数据 是 由 斯 坦 福 大 学 提供 的 公开 数据 web-Stanford( 网 址 链接 : 
https://snap. stanford. edu/data/index. html) ,该 数据 集 共 包括 281 903 个 网 页 链接 
以 及 这 些 网 页 之 间 2 312 497 条 关系 。 表 9-2 是 关于 该 数据 集 的 统计 信息 (数据 下 载 
地 址 : https://snap. stanford. edu/data/web-Stanford. html) 。 
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表 9-2 数据 统计 信息 
数 据 统计 值 
Nodes 281 903 
Edges 2 312 497 





Nodes in largest WCC 


255 265 (0. 906) 





Edges in largest WCC 


2 234 572 (0.966) 





Nodes in largest SCC 


150 532 (0. 534) 





Edges in largest SCC 


1576 314 (0.682) 




















Average clustering coefficient 0.5976 
Number of triangles 11 329 473 
Fraction of closed triangles 0.002 889 
Diameter (longest shortest path) 674 
90-percentile effective diameter 7 


9.4 实验 结果 


9.4.1 结果 展示 


我 们 按 常 规 取 法 取 a 一 0.8, 收 敛 参数 取 0. 00001, 最 大 迭代 次 数 取 100, 最 终 得 到 


根据 pr 值 排列 的 top 10 的 网 页 id, 如 表 9-3 所 示 。 


表 9-3 PageRank 值 排序 top 10 


























网 页 id PageRank 值 

89073 0.010 474 629 015 421 715 0 
226411 0.009 610 237 781 241 239 0 
241454 0.008 379 659 181 992 816 0 
134832 0.003 257 857 259 632 642 5 
69358 0.002731 673 891 432 488 6 
67756 0.002 704 544 573 104 366 0 
234704 0.002 661 308 613 104 230 0 
225872 0.002 525 455 388 754 046 5 
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续 表 
网 页 id PageRank 值 
186750 0.002 497 104 749 236 566 4 
262860 0.002 486 836 915 336 930 5 
9.4.2 结果 分 析 


PagaRank 算法 有 许多 优点 ,比如 原理 容易 理解 ,实现 起 来 较 简单 ,对 初 值 不 敏感 
等 。 在 进行 网 页 排序 的 过 程 中 ,PagaRank 的 离线 计算 可 大 大 缩减 搜索 引擎 查询 时 
间 , 达 到 提高 用 户 体验 的 目的 。 同 时 ,由 于 PagaRank 是 与 查询 词语 无 关 的 算法 ,使 其 
忽略 了 主题 相关 性 。 而 且 旧 网 页 往往 比 新 网 页 在 权威 性 和 重要 性 上 占 一 定 优势 , 因 
为 新 网 页 很 少 有 指向 自己 的 链接 , 即 马 太 效 应 。 

PagaRank 算法 虽然 刚 开 始 的 用 途 是 为 了 提高 Google 搜索 引擎 的 网 页 排名 效 
率 , 从 而 提高 其 搜索 质量 。 但 随 着 越 来 越 多 的 学 者 研究 该 算法 ,发 现 了 PageRank 算 
法 思想 的 思维 方式 , 即 只 要 事物 之 间 可 以 抽象 出 来 成 为 图 谱 , 就 可 以 应 用 PageRank 
进行 一 些 研究 。 这 种 图 谱 代 表 着 事物 之 间 的 关系 ,由 这 种 关系 运用 PageRank 算法 最 
终 可 以 得 到 重要 性 或 权威 性 的 排名 ,甚至 还 可 以 代表 影响 关系 的 度量 等 。 

PageRank 算法 的 应 用 还 有 很 多 。 在 学 术 界 , PageRank 算法 可 作为 论文 影响 力 
的 衡量 方式 ,和 搜索 引擎 类 似 ,PageRank 算法 可 以 对 每 个 论文 进行 定量 的 评价 ,达到 
学 术 论文 排名 的 效果 ; 在 体育 界 , 特 定 的 运动 项 目 里 ,最 佳 球员 的 选择 也 可 通过 
RageRank 算法 来 确立 ,这 里 主要 通过 运动 员 之 间 的 比赛 结果 来 建立 网 络 连接 ; 在 医 
学 界 ,PageRank 算法 被 应 用 于 癌症 研究 ,可 确定 与 癌症 相关 的 遗传 肿瘤 基因 ,同样 ， 
还 可 应 用 于 其 他 病症 相关 的 研究 ; 在 交通 网 络 方面 ,PageRank 算法 可 应 用 于 交通 流 
量 和 人 流动 向 的 预测 ; 在 社交 网 络 方面 ,该 算法 还 可 应 用 于 角色 发 现 ,发 现 社交 网 络 
中 的 意见 领袖 和 重要 网 络 节点 。 





EM 


@ 10.1 EM 算法 原理 


随机 变量 的 数字 特征 就 是 随机 样本 的 定海 神 针 , 用 拟 合 的 思想 来 求 随机 变量 的 
数字 特征 就 是 EM。 相 比 于 EM 算法 公式 的 复杂 ,其 所 代表 的 解决 问题 的 思想 其 实 
非常 简单 。 很 多 时 候 , 会 遇 到 模型 中 有 两 个 未 知 参数 A 和 B 需要 估计 ,而 A 和 B 之 
间 又 存在 互相 依赖 的 关系 , 即 知道 A 才能 推出 B, 而 同样 确定 B 后 也 才能 知道 A。 对 
于 这 样 的 问题 ,EM 的 思路 就 是 先 固定 其 中 一 个 ,比如 赋予 A 某 个 初 值 后 再 推测 B， 
然后 从 当前 的 B 出 发 重新 估计 A。 如 此 反复 执行 这 个 过 程 ,直到 收敛 。 

这 种 思想 在 实际 生活 中 也 经 常 遇 到 。 比 如 我 们 想 提高 产品 的 质量 ,就 需要 更 多 
的 研发 资金 ,而 更 高 质量 的 产品 才能 吸引 更 多 用 户 的 购买 , 赚 得 更 多 资金 ,这 样 , 产 品 
的 质量 和 拥有 的 资金 就 是 一 对 互相 依赖 的 变量 。 怎 么 办 呢 ? 只 能 先 在 资金 有 限 的 情 
况 下 , 手 起 袖子 加 油 干 尽量 提高 产品 质量 ,赢得 尽 可 能 多 的 订单 , 赚 得 更 多 资金 ,然后 
再 将 资金 投入 研发 , 尽 全 力 提高 产品 质量 ,如 此 良性 循环 下 去 。 怎 么 样 ? 是 不 是 觉得 
EM 的 思想 竟然 如 此 简单 ? 借用 ( 射 雕 英雄 传 ) 中 老 瑞 童 一 招 绝世 功 法 来 总 结 EM 算 
法 : 左右 互 搏 。 


:166 


机 器 学 习 经 典 算法 实践 





10.1.1 EM 算法 引入 


对 概率 模型 进行 参数 估计 是 一 种 常见 的 问题 分 析 手 段 。 当 概率 模型 仅 存在 观测 
数据 时 ,直接 利用 最 大 似 然 估计 的 方法 对 似 然 函 数 取 对 数 , 令 各 参数 的 偏 导数 为 零 ， 
即 可 取得 参数 值 。 然 而 , 当 概率 模型 中 存在 隐 含 变量 时 ,简单 利用 上 述 方法 是 无 法 求 
解 的 。 为 此 ,Dempster 等 人 提出 一 种 迭代 算法 ,用 于 含有 隐 含 变量 的 概率 模型 的 参 
数 估计 问题 , 即 EM 算法 。 

EM 算法 ,全 称 为 期 望 -最 大 化 (Expectatiom- Maximization) 算 法 。 顾 名 思 义 ,是 一 
种 通过 迭代 地 求解 隐 含 变量 的 充分 统计 量 和 最 大 化 似 然 函数 以 达到 估计 参数 的 算 
法 。 该 算法 广 受 关注 ,不 仅 是 因为 其 为 含有 隐 含 变量 的 似 然 函数 提供 了 解法 ,更 是 因 
为 其 完备 的 数学 模型 得 以 保证 求解 结果 的 正确 性 。 在 正式 开始 介绍 EM 算法 之 前 ， 
可 以 简要 复习 一 下 K-Means 算法 。K-Means 算法 迭代 的 求解 质心 与 划分 簇 正 是 EM 
算法 的 一 个 最 基本 的 实现 。 质 心 正 是 该 问题 的 隐 含 变量 (该 隐 含 变量 标识 着 每 一 个 
点 属于 哪 一 个 簇 )。 而 划分 簇 其 实 是 一 个 最 优化 的 过 程 , 通 过 求解 距离 来 保证 每 一 个 
点 被 划分 到 最 近 的 一 个 簇 。 

例 1 假设 某 校 为 对 学 生 XX, 、X 和 Xs 三 个 科目 的 成 绩 分 布 情况 进行 分 析 , 每 个 
科目 随机 抽取 了 100 份 成 绩 , 即 Xi 三 {x ,x X= {II 
zz ,zz ) ,那么 如 何 对 每 个 科目 成 绩 分 布 参数 进行 估计 呢 ? 

解 : 已 知 每 个 科目 成 绩 均 服从 高 斯 分 布 , 即 有 Xi 一 Ny , 吕 ) ,k= 二 1,2,3。 那 么 对 
每 科 成 绩 的 参数 估计 方式 如 下 : 


100 
1:(0) = UA k=1,2,3 (10-1) 
El 


然后 对 似 然 函数 取 对 数 , 令 各 参数 偏 导 数 为 震 , 即 可 获取 参数 yu \oi 的 估计 值 。 

例 2 那么 如 果 该 校 不 分 科目 随机 抽取 了 300 份 成 绩 , 即 = {x ,zx 
ZW), 此 时 又 如 何 对 三 个 科目 的 分 布 参 数 进行 估计 呢 ? 

解 : 已 知 各 科 成 绩 服从 高 斯 分 布 。 抽 取 到 某 个 成 绩 样本 xz” 的 概率 为 p(x”1v? 一 
让 pp(v? =j;$) ,j=1,2,3。 其 中 ,p(x |v® 二 ) 表 示 样 本 zx 中 抽取 自 第 j 个 高 
斯 分 布 的 概率 ,那么 似 然 函 数 如 下 : 





vw (10-2) 
i =1 


其 中 ,wv” 为 隐 含 变量 , 即 对 于 每 个 样本 x 所属 科目 并 不 清楚 。 在 这 种 情况 下 对 似 然 
函数 取 对 数 可 得 : 


0 3 
logl(0) = Dlog PD plz® | vsp0) pv ;8) (10-3) 
1 =l 


由 于 ww， 未 知 ,并 且 进 一 步 求解 是 很 困难 的 ,因而 下 文 引 入 EM 算法 解决 以 上 问题 。 
10.1.2 科学 问题 


1. 问题 定义 


输入 : 观测 数据 以 及 类 别 总 数 。 
输出 : 观测 数据 所 服从 的 几 个 分 布 函数 的 参数 。 


例 3 假设 随机 抽取 到 某 校 7000 份 成 绩 , 但 并 不 清楚 每 一 份 成 绩 所 必 4 个 科目 


里 的 哪 一 科 , 在 这 种 情况 下 如 何 对 该 校 每 科 成 绩 所 服从 的 分 布 参 数 进行 估计 ? 
解 : 输入 : 7000 份 成 绩 , 即 X 一 {z0 ,z2 ,ze jn 一 7000; 类 别 总 数 人 一 4。 
输出 : 4 个 科目 分 别 服从 的 分 布 的 参数 值 ,由 于 各 科 成 绩 服从 高 斯 分 布 ,因此 输 


出 为 每 科 成 绩 的 分 布 参数 了 = { (yaya ) ,em), (se) ,Cuyso)} 以 及 样本 服从 各 
个 分 布 的 概率 $ 二 {81,82 ,$s ,pr)。 


2. 相关 理论 


本 节 主 要 对 EM 算法 推导 过 程 中 所 涉及 的 相关 知识 进行 简要 介绍 。 

车 f(x) 为 定义 域 为 实数 的 函数 , 且 对 于 所 有 Zz, 有 六 (zx) 宇 0(xER), 那 么 了 为 凸 
函数 。 如 果 六 (z)>0, 那 么 了 为 严格 凸 函 数 。 

定理 1，(Jensen 不 等 式 ) 若 f(x) 为 凸 函 数 ,X 为 随机 变量 ,那么 


E(f(X)) > f(EX) (10-4) 
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10-1 凸 函 数 
如 图 10-1 所 示 , 实 线 为 凸 函 数 ,X 为 随机 变量 ,并 且 随机 取 a 和 2” 的 概率 分 别 
为 0.5。 那 么 ,由 图 可 得 E(0.5(f(a) 二 f(6))) 宇 f(0.5(Ga+b)), 即 E(f(X)) 宇 
f(EX), 


@ 10.1.3 理论 推导 


1. EM 


EM 算法 用 于 解决 含有 隐 含 变量 的 概率 模型 的 参数 估计 问题 。 假 设 对 于 一 个 估 
计 间 题 , 其 样本 集合 为 {zr”,z”,…,z”), 且 样本 间 相 互 独立 。 那 么 我 们 需要 找到 每 
个 样本 的 隐 含 类 别 v, 以 使 得 p(x,v) 取 得 最 大 值 ,其 似 然 函 数 如 下 : 


40) = [| p(x® ;0) (10-5) 


似 然 函 数 取 对 数 为 : 

logl(0) = >)log Dp(r® ,ui0) (10-6) 
那么 ,我 们 的 原始 问题 即 为 对 式 (10-6) 的 极 大 化 问题 。 然 而 ,由 于 隐 含 变量 v 的 存 
在 ,直接 极 大 化 似 然 函 数 maxlogL(9) 十 分 困难 。 在 这 种 情况 下 , EM 算法 给 出 一 种 通 
过 极 大 化 似 然 函 数 下 界 的 方式 解决 原始 问题 的 方法 ,具体 推导 过 程 如 下 。 


首先 ,对 于 每 一 个 样本 x ,Gi( 切 表示 该 样本 隐 含 变量 "的 某 种 分 布 ( >)G;(w) = 
1,Gi(v) 三 0) , 则 式 (10-6) 可 转化 为 


(已 AD 人 (D 
logl(#°10) = Dlog DG ) > > 5 BGC )log LE 


v?) Gi(v®) 
(10-7) 
根据 Jensen 不 等 式 可 知 : 
> log>)Gi(u ) 和 2 YG og p(x 人 (10-8) 


其 中 ,f(z)==logz 为 四 函数 (f(x)== 一 1/x?<<0 xzE RT),p(ri,vi;9)/Gi(vi) 相 当 


于 X, 而 > Clan ) 记 汪 5 人 相当 于 PCz9 ,apib)1G;Cuo ) 的 期 望 EX。 


为 使 式 (10-8) 中 等 号 成 立 ,以 获取 似 然 函 数 下 界 ,根据 Jensen 不 等 式 , 需 满足 条 
件 P(X=EX)==1, 即 








本 oa Fo) eo dy 
P(Dos DC Gy (10-9) 
根据 式 (10-9) 可 得 : 
人 = (10-10) 
已 知 DG;(v9)=1, 则 p(x” ,uib) 一 c, 那 么 : 
Gi(om )= ee = p(w? | x? ;0) (10-11) 
p(x ,ui0) 
至 此 ,我 们 得 到 似 然 函数 的 下 界 , 原 始 问 题 转化 为 对 似 然 函数 的 下 界 求 极 大 值 , 即 : 
(DD 
0'= aig msx )) Do )og LE eye (10-12) 
综 上 ,EM 算法 具体 表述 为 以 下 两 个 步骤 。 
卫 步 : 对 于 每 个 i, 求 得 
Gi(v®)= pv® | zx® ;0) (10-13) 


M 步 : 


(20 ,v0 0) 
0 :一 arg mgx > Do os Ey (10-14) 
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[re 





E 复 上 、M 步骤 ,直至 收敛 。 
2. EM-GMM 


GMM 模型 参数 估计 是 EM 算法 的 一 个 具体 应 用 ,其 具体 推导 过 程 如 下 。 假 设 
样本 集合 {zr ,zz } 服 从 联合 分 布 p(x* ,v3) 二 pz |v )p(v), 且 v”~ 
Multinomial(#) ($=p (=) ,#0, Sp =D), zeE(1,2,…,); 在 v ”给 定 的 
情况 下 ,zx ”服从 正 态 分 布 , 即 ze? |1v? 二 j 一 N (jo,)。 这 样 的 模型 称 为 高 斯 混合 
模型 。 

模型 参数 为 y、# 以 及 oa, 为 对 其 进行 估计 , 似 然 函 数 如 下 : 


lg$rpr0) = [[ plz® ,gopr0) (10-15) 
I 
取 对 数 则 为 : 
logl($rps0)= Dlog Dplz® | of spo) p(w? ;8) (10-16) 
| v=l 


同样 ,通过 似 然 函 数 求 偏 导 的 方式 取得 极 值 的 对 式 (10-15) 行 不 通 。 因 此 ,我 们 引入 
EM 算法 思想 : EE 步 ,猜测 隐 仿 变量 v”; M 步 , 更 新 $y.o, 对 似 然 函 数 进行 最 大 化 。 
具体 过 程 如 下 : 
下 步 : 对 每 一 个 样本 i 和 分 布 类 别 j ,计算 
wi := p(v? 一 了 | x? ;$0) 


P(xz® | ze = jpo)p (vw = j;$) 





= 一 (10-17) 
Dplx® | aa = pn) pu? = ;8) 
t=1 
M 步 : 更 新 参数 ,最 大 化 
Fe = 二 a (10-18) 
lopze 
全 (10-19) 


(9 
Wj 
i=1 





Dp Cz 一 所 ) (zx? —p)T™ 
= 








中 :一 - - (10-20) 
重复 下 .M, 直 到 算法 收敛 。 


10.1.4 算法 流程 


对 算法 理论 推导 过 程 进行 充分 了 解 之 后 ,如 何 快 速 应 用 算法 解决 实际 问题 呢 ? 
下 面 以 EM-GMM 为 例 进行 算法 流程 的 详细 描述 。 

假设 输入 数据 为 X= {zx ,zx 中 ,…,x”) ,并 且 数 据 服 从 高 斯 分 布 , 隐 含 变量 为 
v 一 1,2,…,, 最 终 目标 为 对 A 个 高 斯 分 布 的 分 布 参数 进行 估计 。 

首先 ,初始 化 pCv= 让 ,j= 二 1,2,…,k 以 及 kk 个 高 斯 分 布 的 分 布 参数 初始 化 参数 
pep ope Po vos ss oko 

然后 ,进入 参数 的 更 新 迭代 过 程 , 通 过 不 断 迭 代 下 步 以 及 M 步 ,更 新 上 述 参数 。 
在 玉 步 中 ,根据 公式 (10-17) 计 算数 据 样本 zx” 属于 第 j 个 高 斯 分 布 的 后 验 概率 得 到 
w 包 。 在 M 步 中 ,根据 已 步 得 到 的 wo 带 入 式 (10-18) , 式 (10-19) 以 及 式 (10-20) 更 新 
各 高 斯 分 布 的 分 布 参数 ja pe ,Au 以 及 wm ,aa oks 

另外 ,对 于 算法 是 否 收敛 的 问题 。 一 般 以 参数 变化 量 进行 是 否 收敛 的 判别 , 当 参 
数 更 新 前 后 变化 较 小 则 退出 迭代 。 


10.1.5 算法 描述 


为 了 更 加 清晰 地 展示 EM-GMM 算法 所 解决 的 实际 问题 及 其 实现 思路 , 伪 代 码 
中 仅 给 出 了 该 算法 对 参数 的 更 新 过 程 ,对 输入 数据 的 由 来 不 再 进行 描述 。 


算法 10-1 EM 算法 。 


输入 : 观测 数据 X= {x ,x xz) 
高 斯 分 布 个 数 人 
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过 程 

1: 根据 观测 数据 初始 化 ,po，… $x 以 及 p15pe2，… ope 和 aya ok 

2: repeat 

3 for j=1,2,.…,k 

4 for i=1,2,° ,nn 

5: 根据 式 (10-17) 更 新 各 样本 来 自 不 同 高 斯 分 布 的 后 验 概率 wp 
6 end for 

了 end for 

8 for j=1,2,.…,k 

9 根据 式 (10-18)、 式 (10-19) 及 式 (10-20) 更 新 参数 $j ,p40;。 


10: end for 

11: until $j ,pwo; 更 新 前 后 变化 小 于 收敛 阔 值 

输出 : 参数 Y 王 {( om) (yo )，… (prr0r)) 
参数 g 一 { 轴 办 } 


全 10.2 EM-GMM 实现 


本 节 主 要 对 算法 的 实现 流程 进行 了 展示 ,如 图 10-2 所 示 。 为 使 算法 流程 更 加 清 
晰 ,图 中 仅 涉 及 算法 核心 类 及 方法 。 


10.2.1 简介 


本 节 主 要 对 EM-GMM 算法 的 代码 结构 进行 简介 。 包 括 两 个 数据 封装 类 Input 
和 Parameters ,一 个 算法 功能 类 EMGMM 以 及 一 个 算法 入口 类 MainClass。 其 中 ， 
Input 主要 封装 算法 输入 数据 ,而 Parameters 类 主要 对 待 估 参 数 进行 封装 ,EMGMM 
中 则 包含 算法 核心 步骤 ,MainClass 类 用 于 算法 入 口 ,同时 体现 算法 流程 ,如 表 10-1 
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obtaininput 
main 1 守 际 优 灶 和 一 2 readParameters 3 Input 
入 口 数 一 利用 实际 人 数 和 一 读 出 实际 参数 一 算法 输入 数据 
初始 化 
4 | obtaininitParameters 
初始 化 参数 
5 
9. 更 新 完成 upduteps [meters ) 
参数 更 新 | 
| { | 所 
1 | 
1 的 先 
ssep | | 代 更 新 核心 算法 
函数 -0 
7 ! 
0 
mStep- -| 
M 步 
printResult 有， a :输出 结果 
4 11 WriteResultParameters 辅助 操作 
权利 才 下 “| 写 参数 估计 结果 --- 核 心算 法 
图 10-2 算法 设计 流程 图 
所 示 。 
表 10-1 类 名 称 及 类 描述 
类 名 称 类 描 述 
(输入 数据 ) 
成 员 变量 : 
Input public int classify; // 高 斯 分 布 个 数 
public List <Double> exampleList = new RrrayList<Double>(); // 观 测 
// 数 据 列表 











续 表 





类 名 称 


类 描 述 





Input 


函数 : 
主要 包含 以 上 变量 的 set get 函数 





Parameters 


( 待 估 参 数 ) 

成 员 变量 ; 

public double jp; // 高 斯 分 布 参数 : 期 望 
public double 上 // 高 斯 分 布 参数 : 方差 
public double y; // 多 项 分 布 参数 

函数 ， 

主要 包含 各 参数 的 set .get 参数 





EMGMM 





(EM-GMM 算法 流程 ) 
函数 : 


/ xx 

* 函数 功能 : 根据 actualParameters. txt 中 的 参数 生成 观 
* 测 数据 ,从 而 获取 算法 输入 数据 

# @return Input 算法 输入 

x*/ 

public Input obtainInput(){…} 


/x 

x# 函数 功能 : 从 文件 initParameters. txt 获取 初始 化 参数 
* @return List < Parameters> 初始 化 完毕 的 待 估 参 数 
*/ 

public List <Parameters> obtainInitParameters(){…} 


/x 

* 函数 功能 : 待 估 参 数 的 迭代 更 新 

* @param input 算法 的 输入 

x* @param parametersList 待 估 参 数 

* @return List < Parameters> 待 估 参 数 的 估计 结果 
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EMGMM 


徊 并 
public List <Parameters> updateParameters( Input input, List 
<Parameters > parametersList) {…} 


pe 
* 卫 步 : 获取 每 个 样本 自 第 k 个 高 斯 分 布 的 后 验 概率 

* @param exampleList 观测 数据 

x @param parametersList 待 估 参 数列 表 

* @param k 观测 数据 所 服从 的 所 有 高 斯 分 布 的 个 数 

# @return Map<Integer, List <Double> 各 样本 来 自 各 

* 高 斯 分 布 的 后 验 概率 更 新 后 的 列表 

*/ 

public Map < Integer，List<Double >> eStep(List <Double > exampleList, 
List <Parameters> parametersList, int k) {…} 


/ xx 

* 性 步 : 更 新 各 高 斯 分 布 参数 , 获取 参数 更 新 前 后 的 变化 量 
* @param exampleList 观测 数据 列表 

* @param mulDisMap 第 个 样本 来 自 第 j 个 高 斯 分 布 的 
* 后 验 概率 列表 

* @param parametersList 待 估 参 数列 表 

* @param k 观测 数据 所 服从 的 所 有 高 斯 分 布 的 个 数 

* @return double 参数 更 新 前 后 变化 量 

x/ 

public double mStep(List <Double > exampleList, 

Map < Integer, List<Double>> mulDisMap, 

List <Parameters> parametersList, int k) {-…} 





MainClass 





(EM-GMM 算法 流程 ) 

函数 : 

/#x EM 一 GMM 实 现 流程 */ 

public static void main(String[ ] args) {…} 
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10.2.2 核心 代码 


算法 整体 流程 如 algorithm 包 中 MainClass. main( ) 方 法 所 示 。 其 中 主要 包含 输入 数 
据 的 获取 、 初 始 化 参数 的 获取 、 参 数 的 迭代 更 新 以 及 参数 估计 结果 的 打印 过 程 。 首 先 ， 
利用 algorithm 包 中 的 EMGMM. obtainInput() 方 法 读 取 文件 actualParameters. txt 中 的 
参数 ,生成 EM-GMM 算法 所 需要 的 输入 数据 ,并 存 入 inputData. txt 以 便 进行 观测 。 其 
次 ,通过 对 输入 数据 进行 观察 ,在 文件 initParameters. txt 中 对 待 估 参 数 进行 初始 化 ,并 
且 通 过 调用 algorithm 包 中 的 EMGMM. obtainInitParameters() 方 法 获取 initParameters. 
txt 文件 中 初始 化 完毕 的 参数 。 然 后 ,调用 algorithm 包 中 的 EMGMM. updateParameters 
〇 方法 对 待 估 参 数 进 行 失 代 更 新 ,直到 算法 达到 收敛 条 件 ,将 参数 估计 结果 写 入 文件 
outParameters. txt 并 返回 。 最 后 ,调用 EMGMM. printParameters() 方 法 打印 参数 估计 
结果 。 同 时 ,对 比 actualparameters. txt 与 outParameters. txt 两 个 文件 中 的 参数 ,验证 参 
数 估计 结果 的 正确 性 。 值 得 注意 的 是 ,算法 达到 的 收敛 条 件 有 多 种 计算 方式 。 本 次 算 
法 实现 以 更 新 前 后 参数 变化 量 小 于 某 个 较 小 阔 值 来 进行 收敛 与 否 的 判别 。 具 体 实 现 流 


程 如 下 。 
1 public static void main(String[ ] args) { 
3 EMGMM emgmm = new EMGMM( ) ; 
3 
4 //1. 生成 观测 数据 ,并 获取 算法 的 输入 
5 Input input = emgmm. obtainInput( ); 
6 
学 //2. 获取 初始 化 参数 
8 List <Parameters > parametersList = emgmm. obtainInitParameters(); 
9 
10 //3. 参数 迭代 更 新 
过 List<Parameters > result= 
82 emgmm. updateParameters( input, parametersList); 
13 
14 //4. 打印 参数 估计 结果 
15 emgmm. printResult (result); 





该 算法 在 输入 数据 的 获取 上 具有 一 定 的 特殊 性 。 通过 给 定 参数 
actualParameters. txt, 利 用 高 斯 分 布 性 质 生成 EM-GMM 算法 的 输入 数据 ,并 且 将 生 
成 的 数据 存 人 文件 inputData. txt 供 算法 使 用 。 在 算法 实现 过 程 中 主要 通过 调用 
algorithm 包 中 的 EMGMM. obtainInput() 方 法 完成 上 述 工 作 。 具 体 输入 数据 生成 及 
获取 过 程 如 下 。 


1 / xx 

2 * 函数 功能 : 根据 actualParameters. txt 中 的 参数 ,生成 观测 数据 , 从 而 获取 算法 
输入 数据 

3 * @return Input 算法 输入 

4 */ 

5 public Input obtainInput() { 

6 Random random = new Random( ); 

了 Input input = new Input(); 

8 // 读 取 用 于 生成 观测 数据 的 参数 列表 

9 List <Parameters > parametersList = FileOperate. readParameters( 

10 Configurat ion. ACTUAL_PARAMETERS_PATH, "\t"); 

于 // 根 据 不 同 高 斯 分 布 (参数 ) 生 成 观测 数据 

12 for (int j=0; j < parametersList. size(); j++) { 

tz | double y= parametersList. get(j).get 0 (); 

14 for (int i=0; i< Configuration.OBSERVED DATA_NUMBER * 由 i++) { 

15 double example = Math. sqrt(parametersList. get(j).get()) 

16 * random. nextGaussian( ) + parametersList. get(j). gety(); 

7 input. addExample( example) ; 

18 } 

19 } 

20 input. setClassify(parametersList. size()); 


21 // 为 便于 观察 算法 具体 的 输入 数据 , 这 里 将 观测 数据 以 及 分 布 数 写 入 文件 
//observedData. txt 


22 FileOperate. writeObservedData( Conf iguration. INPUT_DATA_PATH, input); 
a return input; 
24 } 


为 便于 对 初始 化 参数 进行 调节 ,初始 化 过 程 在 文件 initparameters. txt 中 完成 ， 
并 通过 调用 EMGMM. obtainInitParameters() 方 法 读 取 初始 化 完毕 的 待 估 参 数 。 代 





码 如 下 。 
1 
2 
3 
4 
本 
6 
了 
8 
9 


初始 化 之 后 ,进入 算法 的 核心 部 分 , 即 参数 的 迭代 更 新 。 主 要 通过 调用 
EMGMM. updateParameters() 实 现 。 


/ xx 
* 函数 功能 : 从 文件 initParameters. txt 获取 初始 化 参数 
* @return 初始 化 完毕 的 待 估 参 数 
Di 
public List <Parameters > obtainInitParameters(){ 
List <Parameters > parametersList = FileOperate. readParameters( 
Configuration. INIT_PARAMETERS_PATH, "\t"); 
return parametersbList; 


1 /xx 

2 * 函数 功能 : 待 估 参 数 的 迭代 更 新 

3 * @paran input 算法 的 输入 

4 # @param parametersList 待 估 参 数 

[3 #* @return List <Parameters> 待 估 参 数 的 估计 结果 

6 */ 

7 public List <Parameters > updateParameters(Input input, 

8 List <Parameters > parametersList) { 

9 List <Double > exampleList = input. getExamplelist();// 算 法 输入 中 的 观 
// 测 数据 

10 int k= input. getClassify();// 算 法 输入 中 的 高 斯 分 布 个 数 

a // 迭 代 次 数 

12 int iter =1; 

了 // 进 入 待 估 参 数 的 迭代 更 新 

14 while (iter <= Configuration. MAX_ITER) { 

5 System. out. println(" —————————— 第 " + iter + "次 更 新 !"); 

16 //E 步 : 

17 Map < Integer, List <Double>> mulDisMap = this.eStep(exampleList, 


18 PparametersList, k); 
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19 /NM 步 : 

20 double change = this. mStep( exampleList, mulDisMap, parametersList, k); 
河 // 判 断 是 否 满足 收敛 条 件 或 者 达到 最 大 迭代 次 数 

22 if (change < Configuration. CONVERGENCE_CONDITION) 

23 break; 

24 itert+; 

25 } 

26 return parametersList; 

2 


EMGMM. updateParameters( ) 的 实现 主要 通过 调用 EMGMM. eStep() 以 及 
EMGMM. mStep() 两 个 方法 实现 参数 的 迭代 更 新 ,两 个 方法 的 具体 实现 如 下 。 


1 /x 

2 * E 步 : 对 每 一 个 样本 ,获取 其 来 自 第 k 个 高 斯 分 布 的 后 验 概率 

3 * @paran exampleList 观测 数据 

4 * @param parametersList 待 估 参 数列 表 

5 * @paramk 观测 数据 所 服从 的 所 有 高 斯 分 布 的 个 数 

6 * @return Map< Integer, List<Double> 各 样本 来 自 各 个 高 斯 分 布 的 后 验 概率 
更 新 后 的 列表 

又 */ 

8 public Map < Integer, List <Double>> eStep(List <Double> exampleList, 

9 List <Parameters > parametersList, int k) { 

10 Map < Integer, List <Double>> mulDisMap = new HashMap < Integer, List 

<Double >»>(); 

nl // 对 每 个 高 斯 分 布 

12 for (int j=0; j<k; j++) { 

13 List <Double> mulDisList = new ArrayList <Double>(); 

14 // 对 每 个 样本 数据 

5 for (int i=0; i< exampleList. size(); i++) { 

16 double templ = parametersList. get(j).geth() 

Ey 关 Math. exp( — Math. pow(exampleList. get(i) 

18 — parametersList.get(j).gety(), 2) 


19 / (2 * parametersList. get(j).getl())) 





20 / Math. sqrt(Math. abs(2 * Math.PI 


2 关 parametersList.get(j).geth())); 

22 double temp2 = 0; 

23 // 对 每 个 高 斯 分 布 (样本 数据 分 别 来 白 每 个 分 布 的 情况 ) 

24 for (int 1=0; 1 <k; 1++) { 

25 temp2 = temp2 

26 + parametersList.get(1).getl() 

27 * Math. exp( — Math. pow(exampleList. get(i) 
28 — parametersList.get(1).gety(), 2) 
29 / (2 * parametersList.get(1).getl())) 
30 / Math. sqrt(Math. abs(2 * Math.PI 

31 * parametersList.get(1).getl())); 
32 } 

33 // 获 取 当 前 样本 来 自 第 j 个 高 斯 分 布 的 后 验 概率 目 

34 double = templ / temp2; 

5 mulDisbList. add(@); 

36 } 

37 // 每 个 样本 来 自 各 高 斯 分 布 的 后 验 概率 列表 

38 mulDisMap. put(j, mulDisList); 

又 } 

40 return mulDisMap; 

a 


1 fu 

2 * M 步 : 更 新 各 高 斯 分 布 参 数 ,同时 获取 参数 更 新 前 后 的 变化 量 

3 * @param exampleList 观测 数据 列表 

4 * @Pparam mulDisMap 样本 i 来 白 第 j] 个 高 斯 分 布 的 后 验 概 率 列 表 
5 * @param parametersList 待 估 参 数列 表 

6 * @Pparamk 观测 数据 所 服从 的 所 有 高 斯 分 布 的 个 数 

可 * @return double 参数 更 新 前 后 变化 量 

8 

9 


*/ 
public double mStep(List <Double> exampleList, 
10 Map < Integer, List <Double>> mulDisMap, 
pb List <Parameters > parametersList, int k) { 


了 2 double change = 0; 
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a // 每 个 分 布 

14 for (int j=0; j<k; j++) { 

15 

16 

17 

18 // 每 个 样本 数据 

19 for (int i=0; i< exampleList. size(); i++) { 

20 sumy = sumy + mulDisMap. get(j). get(i); 

21 sump = sump + mulDisMap. get(j).get(i) * exampleList. get(i); 
22 } 

23 // 更 新 样本 来自 第 j 个 高 斯 分 布 的 概率 

24 double newy, = sumy / exampleList. size(); 

25 // 更 新 第 j 个 高 斯 分 布 的 期 望 

26 double newy = sumy / sumy; 

27 // 第 j 个 高 斯 分 布 的 方差 更 新 过 程 

28 for (int i=0; i< exampleList. size(); i++) { 

29 Sum = sumll + mulDisMap. get(j).get(i) 

30 x* Math.pow(Math.abs(exampleList. get(i) — new), 2); 
31 } 

32 // 更 新 第 j 个 高 斯 分 布 的 方差 

a double newl = sum 有 / sumy; 

34 System. out. println(j +": newyj:"+newy+" newp:"+new 
35 +" newl:"+newl); 

36 // 计 算 更 新 前 后 参数 变化 量 

37 change += Math. abs(parametersList.get(j).getl() - newy) 
38 + Math. abs(parametersList.get(j).gety() — new) 
39 + Math. abs(parametersList.get(j)getl()— newl); 
40 // 更 新 参数 列表 

41 ParametersList. get(j). setuly(newy, newl, newy); 

42 ’ 

43 return change; 

44 } 


最 后 ,打印 并 存储 算法 运行 结果 ,便于 真实 参数 、 初 始 化 参数 以 及 参数 估计 结果 
进行 对 比 。 
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业 

* 函数 功能 : 打印 参数 估计 结果 

3 * @param result 算法 运行 结果 

4 */ 

; public void printResult (List <Parameters> result) { 
6 

yh 


FileOperate. writeResultParameters ( Configuration. RESULT_PARAMETER _ 
PATH, result); 


8 System. out.println(" 参 数 估计 结果 :"); 

9 for (int i=0; i<result. size(); i++) { 

10 Parameters parameters = result. get (i); 

得 System. out. println(parameters.get 有 ()+” "+parameters.gety() 
12 +" "+parameters. 是 ); 

| } 

14 } 


@ 10.3 实验 数据 


对 于 本 次 算法 实现 中 所 涉及 的 数据 ,这 里 做 简要 说 明 。 首 先 , 在 文件 
actualParameters. txt 中 存储 的 是 用 于 生成 算法 输入 数据 的 高 斯 分 布 以 及 多 项 分 布 
参数 。 根 据 以 上 参数 生成 的 算法 输入 数据 存储 在 文件 inputData. txt 中 。 对 算法 进 
行 的 参数 初始 化 在 文件 initParameters. txt 中 完成 。 最 后 ,算法 对 参数 的 估计 结果 存 
储 在 文件 outParameters. txt 中 。 因 此 ,为 对 算法 运行 效果 进行 展示 ,我 们 将 文件 
actualParameters. txt initParameters, txt 与 outParameters. txt 中 的 数据 进行 对 比 
分 析 。 

actualParameters, txt 数据 如 表 10-2 和 表 10-3 所 示 。 

表 10-2 actualParameters(1). txt 
隐 含 变量 A ba 多 
1 20 10 0.1 
2 40 10 和 入 


















































4 80 10 0.4 
注 : 利用 上 述 数 据 生 成 观测 数据 1000 条 。 
表 10-3 actualParameters(2). txt 
隐 含 变量 A oe 多 
1 50 10 0.3 
2 60 10 0.3 
3 70 10 0. 25 
4 80 10 0. 15 








注 ; 利用 上 述 数据 再 生成 观测 数据 10 000 条 。 


人 @ 10.4 实验 结果 


10.4.1 结果 展示 


根据 表 10-2 生成 的 1000 条 观测 数据 进行 实验 ,参数 初始 值 如 表 10-4 所 示 ,经 过 
47 次 迭代 更 新 ,结果 如 表 10-5 所 示 。 对 比 表 10-2 和 表 10-5, 发 现实 验 结果 基本 

















正确 。 
表 10-4 initParameters. txt 
隐 含 变量 A o 多 
1 30 20 0.5 
2 50 20 0.2 
3 70 20 1 
4 90 20 0.2 














表 10-5 outParameters. txt 























隐 含 变量 A ’ 多 
1 20.20 10. 30 0. 10 
2 40.19 9.95 0. 20 
3 60.02 10. 36 0.30 
1 80.16 11. 33 0.39 


根据 表 10-3 生成 的 10 000 条 观测 数据 进行 实验 ,参数 初始 值 如 表 10-6 所 示 , 经 过 
210 次 迭代 更 新 ,结果 如 表 10-7 所 示 。 同 样 ,对 比 表 10-3 和 表 10-7, 实 验 结果 基本 正确 。 


表 10-6 initParameters. txt 














隐 含 变量 A o 多 
1 45 13 0.25 
2 55 8 0. 15 
3 65 6 0.4 
4 90 15 0.2 























隐 仿 变量 A o $ 
1 49.9 10. 46 0.30 
2 60.17 10. 06 0.31 
3 70.14 9.16 0.24 
4 80.02 9.53 0.15 


10.4.2 结果 分 析 


作为 常见 的 隐 变 量 模型 参数 估计 算法 ,EM 算法 除了 应 用 于 对 高 斯 混合 模型 
(GMM) 进行 参数 估计 ,还 可 用 于 K-Means 聚 类 以 及 隐 马 尔 科 夫 模型 的 非 监督 学 习 。 
本 次 实验 主要 针对 GMM 进行 参数 估计 ,通过 生成 不 同 观测 数据 反复 测试 发 现 ,观测 
数据 各 分 布 的 方差 相同 情况 下 ,期望 相差 越 小 越 难 达到 理想 效果 ; 期 望 相差 越 大 , 实 





验 效果 越 好 。 在 期 望 不 变 的 情况 下 ,方差 越 大 实验 效果 越 差 ; 方差 越 小 实验 效果 越 
好 。 也 就 是 说 ,观测 数据 分 布 越 集中 ,算法 表现 越 差 ; 观测 数据 分 布 越 分 散 , 算 法 效 
果 越 好 。 

值得 注意 的 是 ,EM 算法 对 初 值 敏感 ,因此 在 算法 赋予 初 值 时 需要 对 观测 数据 有 
一 定 的 直观 了 解 ,多 次 赋值 取得 最 佳 估 计 结 果 。 另 外 ,对 EM 算法 的 收敛 性 ,EM 算 
法 并 不 能 保证 取得 全 局 最 优 。 
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